1 / 30

Adnan Menderes Üniversitesi

TÜRKÇE OTOMATİK HECELEME SİSTEMİ VE HECE İSTATİSTİKLERİ. Adnan Menderes Üniversitesi. ÖZET. Bu çalışmada, Türkçe sözcükleri heceleyen bir algoritma geliştirilmiştir. Önerilen algoritma MATLAB ve C kullanılarak beş farklı Türkçe külliyat üzerinde test edilmiştir.

miller
Download Presentation

Adnan Menderes Üniversitesi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TÜRKÇE OTOMATİK HECELEME SİSTEMİ VE HECE İSTATİSTİKLERİ Adnan Menderes Üniversitesi VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  2. ÖZET • Bu çalışmada, Türkçe sözcükleri heceleyen bir algoritma geliştirilmiştir. • Önerilen algoritma MATLAB ve C kullanılarak beş farklı Türkçe külliyat üzerinde test edilmiştir. • Test sonuçlarına göre her bir külliyatın ilk 2000 sözcüğü için algoritmanın hatalı heceleme oranının yaklaşık %0 olduğu gözlemlenmiştir. • Çalışmanın sonraki adımında istatistiksel n-gram dil modelleri kullanılarak,Türkçe hece istatistiği çıkartılmıştır. • Her bir hecenin n-gram frekansları ile hece uzunlukları hesaplatılmıştır. • Türkçe’deki ortalama hece uzunluğu tespit edilmiştir. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  3. UYGULAMA ALANLARI • Otomatik dil tespiti, • Metin içindeki yazımı hatalı sözcüklerin belirlenmesi, • Heceleme, • Otomatik metin özeti, • Optik karakter tanıma, • Kriptoloji, • Veri sıkıştırma, • Ses sentezleme ve tanıma. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  4. Türkçe dili için, bir doğal dil işleme sistemi geliştirmek dilin yapısından dolayı zordur. • Bu çalışma Türkçe sözcüklerin hecelenmesi ve istatistiklerinin çıkarılabilmesi için yeni bir yaklaşım önermektedir. • Hece istatistiklerinin çıkarılması için istatistiksel n-gram dil modelleri oluşturulmuştur. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  5. İstatistiksel dil modelleriyle Türkçe külliyatta bulunan sözcükler içinde hecelerin art arda gelme ihtimalleri hesaplanmıştır. • Sözcük tabanlı çalışmalardan ziyade hece tabanlı yaklaşımların kullanılmasının daha elverişli olduğu düşünülmüştür. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  6. İstatistiksel Dil Modelleri • İstatistiksel dil modelleri, metin içinde bir cümlenin veya bir cümle içinde sözcüklerin yer alma olasılıklarının hesaplanmasında kullanılır. • Bu yaklaşım benzer olarak çalışmamızda, Türkçe bir sözcük içinde hece dizilimlerinin yer alma olasılıklarının hesaplanmasında kullanılmıştır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  7. Verilen metin içinde Sbelli bir sözcüğü temsil etsin ve bu sözcüğün h1h2…hthece diziliminden oluştuğunu varsayalım. • 2-gram hece modeline göre, 1≤i≤tiçin hi hecesinin S sözcüğü içinde yer alma olasılığının, sadece kendisinden hemen önce gelen hi-1 hecesine bağlı olduğunu kabul ederiz. • S içinde hi hecesinin hi-1 hecesinden hemen sonra gelme ihtimali P(hi|hi-1)ile (1) denkleminde verildiği gibi hesaplanır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  8. (1) • (1) denkleminde C(hi-1)metin içinde hi-1 hecesinin toplam frekansını belirtirken,C(hi-1,hi)ise hi-1hihece diziliminin metin içindeki toplam frekansını verir. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  9. Böylece bu dil modelinde metin içinde sözcüğün doğru yazılmış olma olasılığı (2) denklemi ile hesaplanır. (2) VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  10. TÜRKÇE DİLİ ÖZELLİKLERİ • Türkçe dili, Altay dil grubuna girmektedir. • Morfolojik olarak, Korece Macarca ve Fince dillerinde olduğu gibi Türkçe eklemeli bir dil olduğundan bir sözcükten onlarca sözcük türetilebilmektedir. • Buda dildeki sözcük sayısının artmasına sebep olmaktadır. (3) ile verilen sözcükte olduğu gibi, tek bir kökten bir çok farklı sözcük üretilebilir. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  11. Örnekte(3) “Osman” kökünden, “Osmanlı”, “Osmanlılaştırmak” ve “Osmanlılaştıramadıklarımız” gibi sözcükler türetmek mümkündür. Osmanlılaştıramadıklarımızdanmışsınızcasına(3) • (3) sözcüğü Os-man-lı-laş-tı-ra-ma-dık-la-rı-mız-dan-mış-sı-nız-ca-sı-na biçiminde hecelenir. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  12. Türkçe dilinde heceler en az bir, en çok dört harften oluşur ve bal, kol, dal, çal, kürk gibi bazı özel durumlar haricinde heceler anlamsızdır. • Tablo 1’de “C” ünsüz ve “V” ünlü harfleri belirtmek üzere Türkçe hecelerin genel yapısı verilmiştir. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  13. Tablo 1: Türkçe’de hecelerin genel yapısı VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  14. Şekil 1’de ise Türkçe hecelerin uzunluklarının yüzde oranları verilmiştir. • Bu oranlar çalışmada oluşturulan Türkçe külliyattan elde edilmiştir. • Görüldüğü gibi, Türkçe metinlerde en fazla iki harfli heceler yer almaktadır ve test sonucunda 5 ve daha fazla harften oluşan heceye rastlanmamıştır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  15. Şekil 1: Hece uzunluk yüzdeleri. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  16. Şekil 2 ise 890,974 sözcükten oluşturulan Türkçe külliyat için Tablo 1 ile gösterilen hece yapılarının grafiksel olarak dağılımını gösterir. • Şekil 2’de görülen Türkçe yapısına uygun olmayan hece yapıları yabancı menşeili sözcüklerden kaynaklanmaktadır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  17. Şekil 2: Türkçe hecelerinin yapılarına göre dağılımı. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  18. TÜRKÇE OTOMATİK HECELEME SİSTEMİ • Çalışmada önerilen Türkçe otomatik heceleme algoritması MATLAB ile Windows işletim sistemi üzerinde test edilmiştir. • Şekil 3’de görüldüğü üzere sistem öncelikle, Türkçe külliyattaki metni alarak noktalama işaretlerinden arındırarak her bir sözcüğü küçük harfe dönüştürür. • Önişleme sonucunda külliyatta yer alan her bir sözcük arasında sadece tek bir boşluk karakteri yer alınır. • Sonraki adımda, sistem her bir sözcüğü hecelere ayırır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  19. Sistemin ilk bölümü, külliyattaki her bir sözcüğü girdi olarak kabul eder ve bu sözcükleri alt sözcük birimlerine ayırır. • (3) ile verilen sözcük sistemin ilk bölümü ile “Os”,“man”, “lılaş”, “tıramadık”, “larımız”, “dan”, “mış”, “sınız”, “casına”sözcük dizilimleri elde edilir. • Sistemin ikinci bölümü ile üretilen sözcük dizilimlerinin her biri, Tablo 1’de verilen Türkçe hece yapılarına bağlı kalarak hecelere ayrılır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  20. Türkçe Külliyat Önişleme Arındırılmış Türkçe Metin Sözcüklerin Elde Edilmesi Türkçe Sözcükler Modül - A Modül - B Hecelenmiş Türkçe Külliyat Şekil 3. Sistem mimarisi VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  21. Tablo 2: Hece 1-gram istatistiği VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  22. Tablo 3: Hece 2-gram istatistiği VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  23. Tablo 4: Hece sayılarına göre Türkçe küllliyat yapısı VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  24. Tablo 5: Hece uzunluklarına göre Türkçe külliyat yapısı VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  25. SONUÇLAR • Öncelikli olarak, yapıları Tablo 4 ve Tablo 5 ile belirtilen beş farklı Türkçe külliyat, önerilen yaklaşımla hecelere ayrılmıştır. • Hecelere ayırma işlemi sonucunda her bir külliyatın ilk 2.000 sözcüğü taranmış ve hatalı hecelenen hiç bir sözcüğe rastlanmamıştır. • Sonraki adımda Tablo 5’de verildiği üzere her bir külliyat için hece uzunlukları hesaplamıştır ve her bir külliyat için hece uzunluk dağılımının hemen hemen benzer olduğu gözlemlenmiştir. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  26. Tüm heceler içinde yaklaşık %56,57 oranında iki harfli heceye rastlanmıştır. • Elde edilen sonuca göre, Türkçe metinlerde iki harfli hece sayısı yoğun olarak kullanılmaktadır. • Buna karşılık üç harfli hece sayısı oranı %35,16, bir harfli, dört harfli ve beş harfli hece sayısı yüzde oranları sırasıyla %5,93, %2,18 ve %0,17 olarak hesaplanmıştır. • Külliyat içinde beş harften fazla uzunluğa sahip heceye rastlanılmamıştır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  27. Tablo 2 ile İmla, Yeni Asır ve Ulusal Program külliyatlarına 1-gram ve 2-gram istatistiksel dil modeli uygulanması sonucunda, elde edilen olasılık oranlarını özetlemektedir. • Tablo 2’ye göre “la” ve “le” heceleri Türkçe dilinde en fazla kullanılan heceler olarak tespit edilmiştir. • Tablo 3’deki verilere göre, Türkçe metinler içinde “i” hecesinin boşluk karakterini takip etmesi olasılığı %1,43 olarak hesaplanmıştır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  28. Görüldüğü üzere, çalışmada boşluk karakteri ayrı bir hece olarak değerlendirilmiştir. • Yapılan testler ile elde edilen sonuçlar, Türkçe heceleme sistemi için önerilen yaklaşımın %100’e yakın başarı oranını elde ettiğini göstermiştir. • Önerilen sistem kullanılarak, Türkçe dilinin yapısının daha iyi anlaşılmasına olanak sağlanmıştır. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  29. Geliştirilen sistem ile Türkçe metinler için sıkıştrma algoritmaları geliştirilebileceği ve Türkçe metin yazımında oluşabilecek yazım hatalarının tespitine olanak sağlayacağı fikri ortaya çıkmıştır. • Aynı zamanda sistemin hece tabanlı Türkçe ses sentezleme ve konuşma tanıma sistemleri için temel oluşturacağı düşünülmektedir. VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

  30. Teşekkürler... Sorular ve Öneriler VIII. Akademik Bilişim Konferansı Bilgi Teknolojileri Kongresi IV

More Related