280 likes | 589 Views
TÜRKÇE DOKÜMAN TANIMA SİSTEMLERİNDE KARŞILAŞILAN KARMAŞIK METİN SATIRLARININ TESPİT EDİLMESİ PROBLEMİNİ ORTADAN KALDIRAN BİR GÖRÜNTÜ ANALİZİ YAKLAŞIMI. Hasan KARAL ve Emre UZUN Karadeniz Teknik Üniversitesi Fatih Eğitim Fakültesi, Bilgisayar ve Öğretim Teknolojileri Eğitimi Bölümü
E N D
TÜRKÇE DOKÜMAN TANIMA SİSTEMLERİNDE KARŞILAŞILAN KARMAŞIK METİN SATIRLARININ TESPİT EDİLMESİ PROBLEMİNİ ORTADAN KALDIRAN BİR GÖRÜNTÜ ANALİZİ YAKLAŞIMI Hasan KARAL ve Emre UZUN Karadeniz Teknik Üniversitesi Fatih Eğitim Fakültesi, Bilgisayar ve Öğretim Teknolojileri Eğitimi Bölümü hasankaral@ktu.edu.tr, euzun61@hotmail.com
GİRİŞ Doküman tanıma konusunda dünya genelinde yoğun bir akademik çalışma vardır. Bu çalışmalar daha ziyade el yazması karakter tanıma üzerinedir. Genel olarak doküman tanıma sistemleri, günümüzde birçok alanda geniş kullanıma hitap eden teknolojiler arasındadır. Fakat bu amaçla geliştirilen ve kullanılan yazılımlar çoğunlukla amaca hizmet etmekle beraber, karşı karşıya kaldıkları bazı doküman biçimlerine cevap veremeyebilmektedir. 01 / 26
GİRİŞ Bu amaçla, karmaşık bir satır yapısına sahip olsa bile, analiz edilecek doküman resimleri üzerine geliştirilen bir yaklaşımla, metin başarılı bir şekilde elde edilebilmektedir. Çalışmamızda tarayıcı yardımı ile elde edilen karmaşık yapıda satır biçimine sahip bir doküman resmi üzerinden, analiz, tespit ve belirleme işlemleri gerçekleştirilmiştir. Uygulanan işlemler sırası ile açıklanacak ve örnek program görüntüleri verilecektir. 02 / 26
YAZILIM SİSTEM TASARIMI İŞLEM BASAMAKLARI Doküman resmi temel görüntü analizi, * Gri dönüşümü * Eşikleme * Bozulmalar için filtreleme Satır görüntülerinin şekil haline dönüştürülmesi ve koordinat tespiti, * Genişletme işlemi * Çerçeve eliminasyonu * Her satırın tespit edilmesi ve çevre koordinatlarının belirlenmesi * Çevre koordinatları tespit edilen her satır resminin, orijinal satır görüntülerini içeren doküman resminden alınması Elde edilen her satır için açısal satır analizi, * Orijinal doküman görüntüsünden alınan satır resimlerinin, eğim durumlarına göre doğrusal hale getirilmesi 03 / 26
DOKÜMAN RESMİ TEMEL GÖRÜNTÜ ANALİZİ Çalışma boyunca üzerinde işlem yapılmış olan ve geliştirilen görüntü analizi yöntem ve algoritmaların işlerliğinin üzerinde test edilmiş olduğu karmaşık satır yapısına sahip doküman resmi Şekil 1’de görülmektedir. Şekil 1. Karmaşık satır yapısına sahip görüntü analizi doküman resmi 04 / 26
DOKÜMAN RESMİ TEMEL GÖRÜNTÜ ANALİZİ İlk gerçekleştirilecek işlem, doküman resmi üzerindeki 8 bit gri ölçekleme dönüşümüdür. Böylelikle resim, üzerinde daha hızlı işlem yapılabilecek düzeye indirgenir. Daha sonra gri tonlu parlaklık seviyesine sahip olan piksellerin eşikleme işlemine tabi tutulması ile, doküman resmi siyah/beyaz biçimine dönüştürülür ki, böylelikle ikili veriler (1-0) üzerinde çok daha hızlı bir şekilde yapılan işlemlere cevap verir. Ancak bu işlemler sonucunda metin görüntüsü üzerinde kalan ve analiz sırasında yazılımı yanıltma olasılığı olan anlamsız bozulmaları gidermek gerekmektedir. Bu amaçla bir filtre uygulanmıştır. 05 / 26
DOKÜMAN RESMİ TEMEL GÖRÜNTÜ ANALİZİ Şekil 2 bu başlangıç işlemleri sonucunda doküman görüntüsünün son durumunu göstermektedir. Şekil 2. Başlangıç düzeyi temel görüntü analizi 06 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Sırada doküman resmi üzerindeki satır görüntülerinin tespit edilmesi ve resimden alınması işlemi vardır. Sırası ile tespit edilerek alınan satır görüntülerinin her biri için doğrusal analize hazırlık olması nedeniyle açısal analiz işlemi uygulanmıştır. Uygulanan işlem biçimi şu şeklidedir. Satır görüntülerinin ayrı ayrı birbirine karışmadan tespit edilmesi için, her satırın kendi başına bir şekil oluşturması yaklaşımından başlamak şartıyla, satırlar yine görüntü işleme algoritmaları yardımı ile genişletilir. Kontrollü olarak gerçekleştirilen belirli bir orandaki genişletme işleminden sonra Şekil 3’te görüldüğü gibi, artık satırlar bilgisayar mantığına uygun şekilde karışmadan birbirinden görsel olarak ayrılmışlardır. 07 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Şekil 3. Genişletme işlemi sonrasında karmaşık metin satırlarının görsel olarak ayrılması 08 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Burada bir problem vardır. Uygulanan genişletme filtresi nedeniyle doküman resmi etrafında bir çerçeve oluşmuştur. Fakat basit görüntü işleme yöntemleri ile bu çerçevenin ortadan kaldırılması kolaylıkla sağlanmıştır. Sapma ve bozulma göstermeden filtrenin görüntü üzerinde kaç kez uygulandığına bağlı olarak ortaya çıkan bu çerçevenin silinmesi sonucunda elde edilen dokuman görüntüsü Şekil 4’te görülmektedir. 09 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Şekil 4. Çerçeveden bağımsız ve görsel olarak rahatlıkla birbirinden ayrılmış satır görüntülerini içeren doküman resmi 10 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Sıra görüntü üzerindeki bu nesnelerin başlangıç ve bitiş koordinat aralıklarının tespit edilmesi ve bellekte hazır halde olan Şekil 2’deki görüntüden bu koordinat aralıklarının satır görüntüsü olarak elde edilmesi işlemlerindedir. Şekil 4’teki doküman görüntüsü üzerindeki satır tespit yaklaşımı şu şekilde çalışmaktadır. Yukarıdan aşağı ve soldan sağa olmak üzere resim üzerindeki siyah pikseller taranır. Anlamsız lekeler daha önceden temizlendiği için yazılımın tespit sırasında yanılması en aza indirilmiştir. İlk siyah piksel bulunduğunda, aynı zamanda ilk satırda tespit edilmiş demektir. Bir noktasından yakalanan herhangi bir satır, tamamen siyah piksellerden oluştuğu için eğim açısı, eğim yönü, sol, sağ, üst ve alt sınır koordinatları bu çalışmada geliştirilen bir yöntemle başarılı bir şekilde tespit edilmiştir. 11 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Şekil 5 bu satır şekli koordinat analizini göstermektedir. Şekil 5. Tespit edilecek satır şeklinin eğim ve aksi eğim noktası koordinat analizi 12 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Yukarıdan aşağıya tarama neticesinde en üst noktasından yakalanan bir satır şekli ile ilgili analiz ve karar mantığı şu şekildedir. h = H / 2 + Satır ve Sütun değerlerinden sağa ve sola son beyaz bölgeye kadar çizilen dikmeler kullanılarak ilk orta noktanın bu dikmelere olan uzaklıkları Sağ Mesafe ve Sol Mesafe adları ile saklanır. Şekilden de anlaşılabileceği gibi satır şekli görüntüsü sola eğiktir. Bu nedenle Sol Mesafe olarak hesaplanan değer Sağ Mesafe değerinden daha büyük olacaktır. İşte geliştirilen bu yaklaşım ile satır görüntüsünün hangi yöne eğimli olduğu belirlenmiştir. 13 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Şekildeki gibi sola eğik bir satır görüntüsünün, doküman resmi üzerindeki sağ sınır koordinatı; Sağ Sınır Sütun Değeri = Sütun + Sağ Mesafe Sağ Sınır Satır Değeri = Satır + h Sağ sınır orta noktası bu yöntemle hesaplanır. Fakat Sağ üst ve sağ alt nokta koordinatları da yaklaşık olarak aşağıdaki formüller yardımıyla tespit edilir. 14 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Sağ üst nokta sınır koordinatı (~) : Sağ Sınır Satır Değeri-(h+20), Sağ Sınır Sütun Değeri+10 Sağ alt nokta sınır koordinatı (~) : Sağ Sınır Satır Değeri+(h+20), Sağ Sınır Sütun Değeri+10 Sağ sınır nokta koordinatları belirlendikten sonra, eğimin sola olduğu bilgisinden yola çıkılarak, şekil sol tarafa doğru bu çalışmada geliştirilen tarama yöntemi ile kontrol edilecektir. Şekil 6 sola eğimli bir satır görüntüsü için Sol Sınır Koordinatının tespit edilme yöntemi açıklanmıştır. 15 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Şekil 6. Tespit edilecek satır şeklinin eğim noktası koordinat analizi 16 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Bulunan ilk orta noktadan sora her döngü değeri için h kadar aşağı ve beyaz piksel bulana kadar sola gitmek gerekir. Her defasında gidilen sol mesafe, ilk bulunan Sol Mesafe değerinin yarısından küçük olduğunda son kez sola gittik anlamına gelir ve son geldiğimiz sol alt orta nokta sınır koordinatı olarak bulunur. Sol alt ve sol üst koordinatları da yaklaşık olarak aşağıdaki formüller yardımıyla hesaplanır. Sol üst nokta sınır koordinatı (~) : Sol Sınır Satır Değeri-(h+20), Sol Sınır Sütun Değeri-10 Sol alt nokta sınır koordinatı (~) : Sol Sınır Satır Değeri+(h+20), Sol Sınır Sütun Değeri-10 17 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ Bu çalışmada geliştirilen yaklaşım sayesinde, dört koordinat olarak hesaplanan satır görüntüsü, orijinal satırların bellekte tutulduğu doküman görüntüsünden alınır. Üzerinde çalışılan genişletilmiş satır şekil görüntülerinin bulunduğu resim üzerinden, koordinatları tespit edilen satır, orijinal görüntüsü elde edildikten sonra silinir. Ve yine başlangıçtaki soldan sağa ve yukarıdan aşağıya siyah piksel tarama yaklaşımı ile kalan diğer satır koordinatlarının tespit edilmesi ile işleme satırlar bitene kadar devam edilir. Eğim yönü sağ olduğu durumda ise algoritma benzer birkaç deşiklikle işlemi sağlıklı bir şekilde yerine getirecek biçime dönüşmüştür. 18 / 26
SATIR GÖRÜNTÜLERİNİN ŞEKİL HALİNE DÖNÜŞTÜRÜLMESİ VE KOORDİNAT TESPİTİ İşte bu yaklaşım ve yöntemler kullanılarak dinamik olarak oluşturulan listeye, koordinatı tespit edildikten sonra orijinal doküman resminden her elde edilen satır görüntüsünün eklenmesi ile açısal satır analizi işlemi için gerekli hazırlık yapılmış olur. 19 / 26
AÇISAL SATIR ANALİZİ VE DOKÜMAN RESMİNİN DOĞRUSAL ANALİZE HAZIR HALE GETİRİLMESİ Satırlar üzerinde açısal analiz şu biçimde gerçekleştirilir. Her satır resmi için, alttan yukarı, soldan sağa ve sağan sola tarama ve siyah piksel bulma mantığı işletilir. Satırın alt ilk temas noktası denge merkezi olarak kabul edilir ve sol, sağ yaklaşımlarda matematiksel olarak tespit edilen yine eğim yönü ve bu defa ek olarak eğim açısı yardımı ile satır görüntüsü eğim açısı kadar saat yönünde veya tersi yönde görüntü döndürme yöntemleri sayesinde düzgün hale getirilir. 20 / 26
AÇISAL SATIR ANALİZİ VE DOKÜMAN RESMİNİN DOĞRUSAL ANALİZE HAZIR HALE GETİRİLMESİ Şekil 7. Koordinatı genişletilmiş satır görüntülerinden tespit edilen ve orijinal doküman resminden satır biçiminde alınan ilk satır resmi (Açısal analizden önce) 21 / 26
AÇISAL SATIR ANALİZİ VE DOKÜMAN RESMİNİN DOĞRUSAL ANALİZE HAZIR HALE GETİRİLMESİ Şekil 8. Her satır için kayıtlı liste boyunca uygulanacak açısal satır analizi işleminden sonra satır görüntüsü Satırın açısal analizi işlem mantığı, eğim açısı ve eğim yönü tespiti aşağıdaki biçimde açıklanabilir. Eğer X3 sütun koordinatı, X1’e X2’den daha yakın ise satır sola eğimlidir denir ve dönme açısı saat yönünde; α = ArcTan ( ( Y3 – Y2 ) / ( X2 – X3 ) ) biçiminde hesaplanır. 22 / 26
AÇISAL SATIR ANALİZİ VE DOKÜMAN RESMİNİN DOĞRUSAL ANALİZE HAZIR HALE GETİRİLMESİ Eğer tabandan yaklaşan X3 sütün koordinatı, X2’ye X1’den daha yakın ise satır sağa eğimlidir denir ve dönme açısı saat yönünün tersi yönde; α = ArcTan ( ( Y3 – Y1 ) / ( X3 – X1 ) ) biçiminde hesaplanır. Sonuç olarak karmaşık satırlardan oluşan doküman görüntüsündeki metin Şekil 9’daki biçime dönüştürülmüştür. 23 / 26
AÇISAL SATIR ANALİZİ VE DOKÜMAN RESMİNİN DOĞRUSAL ANALİZE HAZIR HALE GETİRİLMESİ Şekil 9. Karmaşık doküman satırlarının doğrusal resim-metin analizi için hazır hale getirilmesi 24 / 26
AÇISAL SATIR ANALİZİ VE DOKÜMAN RESMİNİN DOĞRUSAL ANALİZE HAZIR HALE GETİRİLMESİ Yapılması gereken son işlem, Şekil 9’daki resim üzerinden doğrusal görüntü analizi yardımı ile satır resimlerinin teker teker elde edilmesidir. Yatay ve dikey olarak birbirinden rahatlıkla ayrılabilen satır ve karakterler elde edilir. Burada dikkat edilmesi gereken nokta, satırlardaki kelime ayrımlarının tespit edilmesidir. Her satır için, karakterler arası ortalama boşluk miktarı hesaplanır. Muhtemel kelime ayrımları bu ortalama boşluk miktarından daha uzun olan yerlerdir. Böylelikle doküman görüntüsünün işlenmesi ve anlamlı bir şekilde bölümlendirilmesi sağlanmış olur. Oluşturulan dinamik veri yapıları kullanılarak, görüntüden elde edilen karakterleri kelime ve cümle yapıları ile doğru bir şekilde ayrılmıştır. 25 / 26
SONUÇLAR Çalışmamızda ürettiğimiz yazılım şimdilik karmaşıklık düzeyi oldukça yüksek seviyeli dokümanların görsel analizine yapabilmektedir. Geliştirmeler devam etmektedir. Yazılıma eklenmesi olası yapay sinir ağı sistemi ile karakter tanıma işlemi rahatlıkla gerçekleştirilebilir. Şu an için, çalışmamızda sadece doküman tanıma sistemlerinin temelini teşkil eden görüntü analizi ve resim üzerindeki metnin tespiti konuları ele alınmıştır. Geliştirilen yeni yaklaşımlar ve yöntemler belirtilmeye çalışılmıştır. 26 / 26
TÜRKÇE DOKÜMAN TANIMA SİSTEMLERİNDE KARŞILAŞILAN KARMAŞIK METİN SATIRLARININ TESPİT EDİLMESİ PROBLEMİNİ ORTADAN KALDIRAN BİR GÖRÜNTÜ ANALİZİ YAKLAŞIMI Hasan KARAL ve Emre UZUN Karadeniz Teknik Üniversitesi Fatih Eğitim Fakültesi, Bilgisayar ve Öğretim Teknolojileri Eğitimi Bölümü hasankaral@ktu.edu.tr, euzun61@hotmail.com