Osmanlica.com, OCR’da yüzde 96 doğruluk oranı yakaladı

Necla KOLBUKEN 5 Aralık 2022, 12:32 yayınlandı

osmanlicacom-ocrda-yuzde-96-dogruluk-orani-yakaladi-f39pgWl2.jpeg

Osmanlica.com, OCR’da yüzde 96 doğruluk oranı yakaladı / Haberin Peşinde Urfa

Sosyal bilimlerde en büyük problemlerden biri olan Osmanlı arşiv ve kaynaklarının günümüz Türkçesine aktarılmasına ülkemiz akademisyenlerinden yapay zeka destekli çözüm geliyor. İstanbul Üniversitesi-Cerrahpaşa doktora öğrencisi İsh

Ülkemiz akademisyenleri Osmanlıca kaynakları yapay zeka ile günümüz Türkçesine aktarıyor. İstanbul Üniversitesi-Cerrahpaşa Bilgisayar Mühendisliği Bölümü’nden Doç. Dr. Atakan KURT’un danışmanlığında Dr. İshak DÖLEK tarafından bir doktora tezi projesi olarak başlayan yerli girişim Osmanlica.com Osmanlıca kaynakların günümüz Türkçesine aktarımının ilk adımı olan Osmanlıca OCR işleminde yüzde 96’lık bir başarı elde etti.

Osmanlıca-Türkçe Aktarımı 3 adımda çözüyorlar: 1- OCR 2- Alfabe Çevirisi 3- Dil Çevirisi

Osmanlı arşiv ve kütüphanelerindeki her türlü kaynağı Osmanlıca OCR, Osmanlıca-Türkçe Alfabe Çevirisi ve Osmanlıca-Türkçe Dil Çevirisi olmak üzere üç adımda günümüz Türkçesine aktarmak amacıyla bir doktora tezi olarak başlayan “Osmanlica.com: Yapay Zeka Destekli Osmanlıca-Türkçe Uçtan-Uca Aktarım” projesi, sonrasında Avcılar Kampüsündeki Entertech Teknokent A.Ş. aracılığı ile TÜBİTAK 1512 girişim destekleme programına kabul edildi. Girişimciler Mina ARGE Bilişim Ltd. Şti. adı altında şirketleşerek projenin ilk adımı olan OCR projesini geliştirdiler. OCR projesini başarıyla tamamlayan Mina ARGE, halen bu projenin devam niteliğindeki Osmanlıca-Türkçe Alfabe Çevirisi projesini KOSGEB ve TÜBİTAK’tan aldığı destekle geliştiriyor. Alfabe çevirisi projesinde halihazırda %75 doğruluk oranına erişen şirket, bu uygulamada %95’lik bir doğruluk oranı elde etmek için ARGE faaliyetlerine bilgisayar, dil, edebiyat ve tarihçilerden oluşan bir grup ile devam ediyor.

Osmanlıca OCR’da %96 oranında başarı elde edildi

Osmanlıca dokümanların günümüz Türkçesine aktarımının ilk adımı olan Osmanlıca OCR işleminde %96 doğruluk oranına ulaştıklarını belirten Doç. Dr. Atakan KURT şu açıklamalarda bulundu: “Yurt içi ve dışındaki devlet arşivleri, kütüphane ve özel koleksiyonlarda yüzbinlerce Osmanlıca kitap, gazete, dergi ve belge bulunuyor. Bu kadar belgenin insan eliyle manuel olarak Türkçeye çevirilmesi pratik olarak mümkün değil. Bilgi teknolojilerinde ve yapay zekada son zamanlarda büyük ilerlemeler oldu. Bu sayede daha önce çözülmesi mümkün olmayan problemler yeni gelişmeler ışığında çözülebiliyor. Biz bu yeni teknolojileri Osmanlı arşiv ve kütüphanelerindeki belgelerin günümüz Türkçesine aktarılması için adapte ediyoruz. OCR ve alfabe çevirisi aşamalarında gözle görülür önemli başarılar elde ettik. Batı ülkelerinde büyük oranda çözülmüş olan bu problem ülkemizde henüz çözülemedi. Amacımız Osmanlıca kitap, dergi, gazete ve arşiv belgelerinin günümüz Türkçesine çevirilerek sıradan insanlar ve özellikle yeni nesil tarafından okunabilmesi ve anlaşılabilmesini sağlamak; ve şimdiye kadar belki de hiç incelenmemiş veya okunmamış belgeleri gün yüzüne çıkararak tarihe ışık tutulması için gerekli yazılımları geliştirmektir. Bize göre bu proje Türkiyenin sosyal bilimlerde vizyon projesi olmaya aday bir projedir. Bu proje ile yüzbinlerce kitap, dergi, gazete ve milyonlarca arşiv belgesi günümüz Türkçesine hızlı bir şekilde aktarılabilecektir.”

Osmanlıca-Türkçe alfabe çevirisinde %75 doğruluk oranına eriştiler

Osmanlıca belgelerin günümüz Türkçesine çevrilmesi için birden fazla çalışma yürüttüklerini söyleyen Dr. İshak DÖLEK ise, “Osmanlıca OCR işleminin yanı sıra Osmanlıca-Türkçe alfabe çevirisi, Osmanlıcadan günümüz Türkçesine dil çevirisi, rika OCR yani Osmanlıca el yazısının OCR ile resimden metine dönüştürülmesi gibi diğer projelerde de çalışmaların devam ettiğini” söyledi. “Örneğin Arapça tabanlı Osmanlı alfabesindeki Osmanlıca bir metni Latin tabanlı Türk alfabesine dönüştüren alfabe çevirisinde %75’lik bir doğruluk oranına eriştik. Alfabe çevirisi uygulamamız halen Internette hizmet veren tek uygulamadır” dedi.

Alfabe çevirisini 3 bin kelime ve 23 bin harften oluşan veri kümesiyle test ettiler

Dr. İshak DÖLEK açıklamasının devamında: “Osmanlıca nesih hattında yazılmış 21 sayfa 3 bin kelime ve 23 bin harften oluşan orijinal bir Osmanlıca veri seti ile test edilen OCR uygulamasında yüzde 96 başarı elde ettik. Yani her 100 adet harfin 96 tanesi uygulama tarafından doğru olarak tanındı ki bu şimdiye kadar elde edilmiş en yüksek doğruluk oranı oldu. Bu testlerde uygulamamızı dördü yurt dışından birisi yurt içinden olmak üzere beş farklı OCR uygulamasıyla karşılaştırdık ve sonuçları uluslararası bir konferansta bildiri ve dergide makale şeklinde yayınladık. Ar-Ge faaliyetlerine devam ettiğimiz uygulamamızın sosyal bilimlerde yapacağı katkıdan dolayı mutluyuz. Şu ana kadar Osmanlica.com adresindeki OCR uygulamamızı 20 binden fazla, alfabe çevirisi uygulamamızı da 100 binden fazla kullanıcı denedi. Bu sayılar her gün artmaya devam ediyor. Bu durum bizi daha da motive ediyor” ifadelerini kullandı.