Akis: Osmanlıca Transkripsiyon Aracı
Amaç
DH Lab ve VERİM (Veri Analitiği Araştırma ve Uygulama Merkezi) işbirliği ile yürüttüğümüz Akis: Osmanlıca Transkripsiyon Aracı projesinde amacımız, Arap ve Fars alfabesi kullanılarak, el yazısı ve matbaa aracılığıyla üretilmiş olan Osmanlı Türkçesi eserlerin Latin harflerine transkripsiyonunu yapabilecek tanıma teknolojilerinin geliştirmek ve bu sayede Osmanlı arşivlerinde ve kütüphanelerde bulunan Osmanlı Türkçesi ile yazılmış metinlerin farklı disiplinlerden araştırmacılar ve genel kullanıcılar için daha ulaşılabilir hale getirmek.
Tarih, edebiyat, siyaset bilimi gibi sosyal ve beşeri bilim alanlarında, 1928 harf devriminden önceki dönemler üzerine odaklanan çalışmalarda, araştırmacılar öncelikle Osmanlı Türkçesi metinlerin transkripsiyonunu gerçekleştirir. Ancak transkripsiyon günümüzde sadece Osmanlı Türkçesi okuyabilen uzmanlar tarafından, manuel olarak yapılabilir. Son dönemde Osmanlı Türkçesinde hazırlanmış eski metinlerin dijitalleştirilmeye başlanmasıyla, çok geniş bir metin havuzu çok daha kolay erişilebilir hale geldi ve dijitalleştirme hızı da her geçen gün artıyor. Ancak bu dijital görüntü havuzu hala manuel yapılan transkripsiyon işlemi ile kullanıma hazırlandığından, bu iş giderek bireysel insan emeğinin kapasitesini aşıyor.
Proje kapsamında geliştirilmesi amaçlanan otomatik transkripsiyon sistemi ve uygulaması sayesinde, manuel olarak yapılan bu transkripsiyon işlemini ortadan kaldırmak ve belirlenen kapsam dahilindeki dokümanların otomatik transkripsiyonun gerçekleştirilmesini amaçlıyoruz. Projenin başarıya ulaşması ile, 1928 tarihinden önce basılmış metinler, toplumun farklı kesimleri için erişilebilir hale gelecek.
Akademik ve Toplumsal Etki
Bilgisayar bilimi sahasında çalışan uzmanlar ve Osmanlı çalışmaları sahasında çalışan sosyal ve beşeri bilimciler tarafından yürütülecek çok disiplinli Akis projesinde geliştirilecek olan yazılımı, bir web uygulaması olarak kullanıma açacağız.
Osmanlı alfabesi kullanılarak el yazısı ile üretilmiş ve matbaalarda basılmış metinlerin otomatik transkripsiyonu, sosyal ve beşeri bilimler alanında araştırma süreçlerini ciddi ölçekte azaltacağı için kritik önemde olacak.
Toplumun birçok kesimi için Osmanlı Türkçesi ile üretilmiş olan metinlerin erişilebilir olmasının, kültür ve eğitim alanları başta olmak üzere toplumsal tabanda önemli bir etkiye sahip olacağını öngörüyoruz.
Bağlam
Osmanlı İmparatorluğu'nun yaygın yazı dili, Arap-Fars alfabesinin kullanıldığı Osmanlı Türkçesi, bir diğer ismiyle
Osmanlıcadır. Osmanlıca, 14. yüzyılın sonlarından 20. yüzyılın ortalarına değin kullanılmış olan, Türkçe sözdizimi yapısı
üzerine kurulu, Arapça ve Farsça kelime, kelime grupları ve şekil özelliklerini kapsayan bir yazı dilidir (Timurtaş, 2017;
Ergin, 2020).
Osmanlı Türkçesi, hem daha erken dönemlerde katipler tarafından el yazısıyla hazırlanmış yazma eserlerde hem de 1729 sonrası dönemde matbaalarda üretilmeye başlanan matbu eserlerde karşımıza çıkan asli yazı sistemidir. Aynı yazı sistemi, 1928 yılında gerçekleşen harf devrimine kadar Türkiye Cumhuriyeti’nin erken döneminde de kullanılmıştır.
Bu açıdan, imparatorluk ve cumhuriyet coğrafyası üzerine sosyal ve beşeri bilimlerin tarih, edebiyat, sanat tarihi, mimarlık tarihi, siyaset bilimi ve sosyoloji gibi farklı disiplinlerinde yürütülen ve 1928 öncesi dönem üzerine odaklanan çalışmaların tamamında araştırmacıların başvurdukları birincil kaynaklar ağırlıklı olarak Arap-Fars alfabesinin kullanıldığı Osmanlı Türkçesi metinlerden oluşmaktadır.
Osmanlı Türkçesi (14.-20. yüzyıllar)
El yazmaları
Arap ve Fars alfabesi
Matbu Kültüre Geçiş (1729 - 20. Yüzyıl başı)
El yazmaları + Matbu eserler
Arap ve Fars alfabesi
Dil Devrimi (1928)
Matbu kültür
Latin alfabesi
Yöntem
Akis: Osmanlıca Transkripsiyon Aracıprojesinde, nesih yazı stili kullanılarak hem el yazısı ile hem de matbaa aracılığıyla üretilmiş olan eserlerin Latin harflerine transkripsiyonunda el yazısı tanıma probleminde ulaşılan en yeni yöntemler kullanılacak.
El yazısı tanıma sistemlerinde derin öğrenme teknolojilerinin uygulanması ile tarihi metinlerinin otomatik tanınması pek çok dilde yüksek başarılı sonuçlar verdi. Ancak bugüne değin bu en son yaklaşımlar Osmanlı Türkçesi ile üretilmiş metinlere uygulanmadı. Benzer birkaç ticari ürünün gerek ücretsiz kullanımda uyguladığı kısıtlar gerekse de performansına dair şeffaf ölçütlerin olmaması bu ürünlerin kullanışlılığını genel kullanıcı ve araştırmacılar için azaltıyor.
Akis’i nasıl geliştiriyoruz?
- Veri Seti Oluşturulması: Öncelikle, geliştirilecek yapay zeka ve makine öğrenmesi modellerinin eğitim ve sınanmasında kullanılacak büyük boyutlu bir veri seti oluşturuyoruz.
- Ön işleme: Toplanan doküman görüntülerinin satırlara bölütlenmesi matbu metinler için görece kolay olsa da, yine de farklı yazılmış başlıklar, arka plan gürültüsü veya taşan satırlara bağlı olarak satırların birbirine bağlanması veya fazla veya yanlış bölünmesi (özellikle harekelerin) olasıdır. Bu hatalar sayfada az da olsa sayfanın taranması sırasında oluşabilen dönme durumunda daha da artabilir. Bu açıdan bölütleme aşaması öncesinde gerekli gürültü temizleme ve dönme düzeltme gibi ön işleme adımlarını gerçekleştiriyoruz.
- Uygulama Geliştirme: Projenin son aşamasında, farklı alanlardan araştırmacıların kullanımına uygun, Google Translate benzeri bir web uygulaması geliştireceğiz. Araştırmacılar, gazete gibi karmaşık arka planlı metinlerde ise, belirli bölümleri elle seçerek sisteme yükleyip, transkripsiyonu elde edebilecekler.
- Bölütleme ve Etiketleme: Bölütleme için hem geleneksel (projeksiyon tabanlı), hem derin öğrenme tabanlı yaklaşımları değerlendiriyoruz. Toplanan doküman görüntüleri yarı-otomatik olarak satırlara ayırıyoruz ve her satırın Türkçe transkripsiyonu manuel olarak oluşturuyoruz. Bu işlemi kolaylaştırmak için satırları tek tek etiketleyiciye gösterecek bir etiketleme giriş yazılımı geliştiriyoruz. Bölütlemenin %100 otomatik olamayacağını öngörerek, geliştirilecek etiketleme giriş yazılımına elle satır aralarını düzeltecek bir fonksiyon da ekleyeceğiz.
- Transkripsiyon: Ön işleme ve bölütleme aşamasından geçerek satır görüntülerine dönüştürülmesinin ardından, veri setindeki örnekleri, derin öğrenme temelli bir tanıma sisteminin gözetimli öğrenme yolu ile eğitilmesinde kullanıyoruz.
Demo
Akis yazılımımızın demo videosunu izleyebilirsiniz.
Araştırma Ekibi
Proje Yürütücüsü
Kıdemli Araştırmacılar
Viyana Üniversitesi
İstanbul Medeniyet Üniversitesi
Sabancı Üniversitesi
PURE Yaz 2022 Araştırmacıları
Araştırma Asistanları
Boğaziçi Üniversitesi
Sabancı Üniversitesi
Boğaziçi Üniversitesi
Sabancı Üniversitesi
Orta Doğu Teknik Üniversitesi
Boğaziçi Üniversitesi
Sabancı Üniversitesi