Akis: Osmanlıca Transkripsiyon Aracı

Amaç

DH Lab ve VERİM (Veri Analitiği Araştırma ve Uygulama Merkezi) işbirliği ile yürüttüğümüz Akis: Osmanlıca Transkripsiyon Aracı  projesinde amacımız, Arap ve Fars alfabesi kullanılarak, el yazısı ve matbaa aracılığıyla üretilmiş olan Osmanlı Türkçesi eserlerin Latin harflerine transkripsiyonunu yapabilecek tanıma teknolojilerinin geliştirmek ve bu sayede Osmanlı arşivlerinde ve kütüphanelerde bulunan Osmanlı Türkçesi ile yazılmış metinlerin farklı disiplinlerden araştırmacılar ve genel kullanıcılar için daha ulaşılabilir hale getirmek.

 

Tarih, edebiyat, siyaset bilimi gibi sosyal ve beşeri bilim alanlarında, 1928 harf devriminden önceki dönemler üzerine odaklanan çalışmalarda, araştırmacılar öncelikle Osmanlı Türkçesi metinlerin transkripsiyonunu gerçekleştirir. Ancak transkripsiyon günümüzde sadece Osmanlı Türkçesi okuyabilen uzmanlar tarafından, manuel olarak yapılabilir. Son dönemde Osmanlı Türkçesinde hazırlanmış eski metinlerin dijitalleştirilmeye başlanmasıyla,  çok geniş bir metin havuzu çok daha kolay erişilebilir hale geldi ve dijitalleştirme hızı da her geçen gün artıyor. Ancak bu dijital görüntü havuzu hala manuel yapılan transkripsiyon işlemi ile kullanıma hazırlandığından, bu iş giderek bireysel insan emeğinin kapasitesini aşıyor.

Proje kapsamında geliştirilmesi amaçlanan otomatik transkripsiyon sistemi ve uygulaması sayesinde, manuel olarak yapılan bu transkripsiyon işlemini ortadan kaldırmak ve belirlenen kapsam dahilindeki dokümanların otomatik transkripsiyonun gerçekleştirilmesini amaçlıyoruz. Projenin başarıya ulaşması ile, 1928 tarihinden önce basılmış metinler, toplumun farklı kesimleri için erişilebilir hale gelecek.

Akademik ve Toplumsal Etki

Bilgisayar bilimi sahasında çalışan uzmanlar ve Osmanlı çalışmaları sahasında çalışan sosyal ve beşeri bilimciler tarafından yürütülecek çok disiplinli Akis projesinde geliştirilecek olan yazılımı, bir web uygulaması olarak kullanıma açacağız.

Osmanlı alfabesi kullanılarak el yazısı ile üretilmiş ve matbaalarda basılmış metinlerin otomatik transkripsiyonu, sosyal ve beşeri bilimler alanında araştırma süreçlerini ciddi ölçekte azaltacağı için kritik önemde olacak.

Toplumun birçok kesimi için Osmanlı Türkçesi ile üretilmiş olan metinlerin erişilebilir olmasının, kültür ve eğitim alanları başta olmak üzere toplumsal tabanda önemli bir etkiye sahip olacağını öngörüyoruz.

Bağlam

Osmanlı İmparatorluğu'nun yaygın yazı dili, Arap-Fars alfabesinin kullanıldığı Osmanlı Türkçesi, bir diğer ismiyle
Osmanlıcadır. Osmanlıca, 14. yüzyılın sonlarından 20. yüzyılın ortalarına değin kullanılmış olan, Türkçe sözdizimi yapısı
üzerine kurulu, Arapça ve Farsça kelime, kelime grupları ve şekil özelliklerini kapsayan bir yazı dilidir (Timurtaş, 2017;
Ergin, 2020).

 

Osmanlı Türkçesi, hem daha erken dönemlerde katipler tarafından el yazısıyla hazırlanmış yazma eserlerde hem de 1729 sonrası dönemde matbaalarda üretilmeye başlanan matbu eserlerde karşımıza çıkan asli yazı sistemidir. Aynı yazı sistemi, 1928 yılında gerçekleşen harf devrimine kadar Türkiye Cumhuriyeti’nin erken döneminde de kullanılmıştır.

Bu açıdan, imparatorluk ve cumhuriyet coğrafyası üzerine sosyal ve beşeri bilimlerin tarih, edebiyat, sanat tarihi, mimarlık tarihi, siyaset bilimi ve sosyoloji gibi farklı disiplinlerinde yürütülen ve 1928 öncesi dönem üzerine odaklanan çalışmaların tamamında araştırmacıların başvurdukları birincil kaynaklar ağırlıklı olarak Arap-Fars alfabesinin kullanıldığı Osmanlı Türkçesi metinlerden oluşmaktadır.

Image
akis1

Osmanlı Türkçesi (14.-20. yüzyıllar)

El yazmaları

Arap ve Fars alfabesi

 

Matbu Kültüre Geçiş (1729 - 20. Yüzyıl başı)

El yazmaları + Matbu eserler

Arap ve Fars alfabesi

 

Dil Devrimi (1928)

Matbu kültür

Latin alfabesi

akis2

“Latin harfleri: Dikkat et, tekmeyi yiyeceksin!
Arap harfleri: Bunu yapmak, beni okumak kadar zordur!..”
(Akbaba, İstanbul, 1926)

 

Yöntem

Akis: Osmanlıca Transkripsiyon Aracıprojesinde, nesih yazı stili kullanılarak hem el yazısı ile hem de matbaa aracılığıyla üretilmiş olan eserlerin Latin harflerine transkripsiyonunda el yazısı tanıma probleminde ulaşılan en yeni yöntemler kullanılacak.

El yazısı tanıma sistemlerinde derin öğrenme  teknolojilerinin uygulanması ile tarihi metinlerinin otomatik tanınması pek çok dilde yüksek başarılı sonuçlar verdi. Ancak bugüne değin bu en son yaklaşımlar Osmanlı Türkçesi ile üretilmiş metinlere uygulanmadı. Benzer birkaç ticari ürünün gerek ücretsiz kullanımda uyguladığı kısıtlar gerekse de performansına dair şeffaf ölçütlerin olmaması bu ürünlerin kullanışlılığını genel kullanıcı ve araştırmacılar için azaltıyor.

nesih

Osmanlı Türkçesi`nde kullanılan yazı çeşitleri (Hutut-u Mütenevvia Levhası), Hattat: Hamid Ayaç, SSM Koleksiyonu. Kırmızı alan ile belirtilen nesih yazı stili en sade ve okunaklı stil olarak göze çarpmaktadır.
nesih el yazma

16. ve 17. yüzyıllara ait nesih stilinde el yazması dokümanlar

 

nesih matbu

19. yy. ikinci yarısı ve 20. yy. başına ait nesih stilinde matbu dökümanlar

 

Akis’i nasıl geliştiriyoruz?

  • Veri Seti Oluşturulması: Öncelikle, geliştirilecek yapay zeka ve makine öğrenmesi modellerinin eğitim ve sınanmasında kullanılacak büyük boyutlu bir veri seti oluşturuyoruz.
    • Ön işleme: Toplanan doküman görüntülerinin satırlara bölütlenmesi matbu metinler için görece kolay olsa da, yine de farklı yazılmış başlıklar, arka plan gürültüsü veya taşan satırlara bağlı olarak satırların birbirine bağlanması veya fazla veya yanlış bölünmesi (özellikle harekelerin) olasıdır. Bu hatalar sayfada az da olsa sayfanın taranması sırasında oluşabilen dönme durumunda daha da artabilir. Bu açıdan bölütleme aşaması öncesinde gerekli gürültü temizleme ve dönme düzeltme gibi ön işleme adımlarını gerçekleştiriyoruz.
    • Uygulama Geliştirme: Projenin son aşamasında, farklı alanlardan araştırmacıların kullanımına uygun, Google Translate benzeri bir web uygulaması geliştireceğiz. Araştırmacılar, gazete gibi karmaşık arka planlı metinlerde ise, belirli bölümleri elle seçerek sisteme yükleyip, transkripsiyonu elde edebilecekler.
    • Bölütleme ve Etiketleme: Bölütleme için hem geleneksel (projeksiyon tabanlı), hem derin öğrenme tabanlı yaklaşımları değerlendiriyoruz. Toplanan doküman görüntüleri yarı-otomatik olarak satırlara ayırıyoruz ve her satırın Türkçe transkripsiyonu manuel olarak oluşturuyoruz. Bu işlemi kolaylaştırmak için satırları tek tek etiketleyiciye gösterecek bir etiketleme giriş yazılımı geliştiriyoruz. Bölütlemenin %100 otomatik olamayacağını öngörerek, geliştirilecek etiketleme giriş yazılımına elle satır aralarını düzeltecek bir fonksiyon da ekleyeceğiz.
    bölütleme
    • Transkripsiyon: Ön işleme ve bölütleme aşamasından geçerek satır görüntülerine dönüştürülmesinin ardından, veri setindeki örnekleri, derin öğrenme temelli bir tanıma sisteminin gözetimli öğrenme yolu ile eğitilmesinde kullanıyoruz.
    tasviri efkar

    Araştırma Ekibi

    Proje Yürütücüsü

    Kıdemli Araştırmacılar

    aysu akcan

    Aysu Akcan

    Viyana Üniversitesi

    esma bilgin taşdemir

    Esma Fatıma Bilgin Taşdemir

    İstanbul Medeniyet Üniversitesi

    fatma öncel

    Fatma Öncel

    Sabancı Üniversitesi

    mehmet kuru

    Mehmet Kuru

    Sabancı Üniversitesi

    Araştırma Asistanları

    bilgecaglr
    Bilge Çağlar

    Boğaziçi Üniversitesi

    selami

    Selami Doğan Akansu

    Sabancı Üniversitesi

    zeynepavcı

    Zeynep Avcı

    Boğaziçi Üniversitesi

    zeynept

    Zeynep Tandoğan

    Sabancı Üniversitesi

    sevdenur

    Fatma Nur Karaaslan

    Orta Doğu Teknik Üniversitesi

    okanz

    Okan Kozanoğlu

    Boğaziçi Üniversitesi

    memo

    Mehmet Can Yavuz

    Sabancı Üniversitesi

    PURE Yaz 2022 Araştırmacıları

    akis pure

    Daha Önceki Araştırmacılar

     esmanur sönmez

    Esmanur Sönmez

    İstanbul Medeniyet Üniversitesi

     sinem azade

    Sinem Azade

    İstanbul Medeniyet Üniversitesi