440 likes | 556 Views
Kézzel írt szöveg normalizálása. Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08. A karakter felismerés két fő módja. Online-felismerés:. kisebb erőforrás igény processzor idő memória több adat az inputról sebesség sorrendiség
E N D
Kézzel írt szöveg normalizálása Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08.
A karakter felismerés két fő módja Online-felismerés: • kisebb erőforrás igény • processzor idő • memória • több adat az inputról • sebesség • sorrendiség • toll nyomásának erőssége • valós időben kell feldolgozni Offline-felismerés: • csak a szöveg képe áll rendelkezésre • több idő áll rendelkezésre a feldolgozáshoz Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írott szöveg típusai Izolált karakterek: Nyomtatott írás: Folyóírás: http://www.iform.hu/download/iform_keziras_felismeres_2oo4.pdf Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A felismerési technológiák fejlődése: http://www.parascript.com/company2/tech_overview.cfm Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Alkalmazási területek Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Input képek http://www.iam.unibe.ch/fki/databases/iam-handwriting-database
Az input képek tulajdonságai • angol nyelv • folyóírás • 1539 beolvasott oldal • 657 különböző ember által • több féle különböző tollal • 15 különböző téma • 115 320 szó, és „megoldásaik” • Felépítése: • SentenceDatabase felirat és az űrlap sorszáma • a leírandó szöveg nyomtatva • a kézzel írt szöveg helye • az aláírás helye Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A felismerés lépései • a dokumentum binarizálása • a dokumentum elforgatása • a kézzel írt rész behatárolása • a sorok kinyerése • a sorok normalizálása • a jellemzők kinyerése • a jellemzők feldolgozása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Binarizálás Eredeti • a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt Otsu Isodata Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Otsubinarizálás - hisztogam alapú binarizálás Y: előfordulások darabszáma X: intenzitás mértéke Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A dokumentum elforgatása • például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót) • az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak [1] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A dokumentum elforgatása Fourier transzformációval: • Fourier transzformáció • Gamma korrekció és kontraszt növelés • Binarizálás magas küszöbbel • A középső és a legalsó pont x koordinátabeli különbségének meghatározása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írt rész behatárolása • Megvizsgált módszerek: • Hough transzformáció (vonalkeresés) • Vízszintes projekció • Kontúrkeresés majd behatároló téglalap számítás Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írt rész behatárolása Hough transzformációval: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Vízszintes projekcióval: Fekete-fehér váltások száma: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Szürkeskálás kép projekciója: Binarizált kép projekciója: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Binarizált kép projekciója: Simított: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Vonalak megtalálása kontúrkereséssel A befoglaló téglalapok meghatározása: Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Vonalak megtalálása kontúrkereséssel Az aláírás rálóg a vonalra: Az utolsó sor rá van írva a vonalra: • Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor • Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése • szintén vízszintes hisztogram • a völgyeknél lesz az elválasztó vonal • átlógó vonások problémája [2] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése A simított vizszintes projekción meghatározott csúcsok által: A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése Kontúrkeresés és befoglaló téglalapok: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján
A sorok kinyerése Egybelógó sorok problémája: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok elforgatása • oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa) • ezen helyek felhasználása a lineáris regresszióban • megkapjuk az írás alapvonalát • ennek ferdesége alapján forgatjuk el a sort Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok elforgatása Egyszerű lineáris regresszió Kendall-Theil Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Az írás dőltségének megszüntetése • itt függőleges hisztogramot készítünk a sorokról • fokonként nyíró transzformációval forgatunk • ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok [3] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Az írás dőltségének megszüntetése Globális dőlésszög meghatározással: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Sorok régióinak meghatározása és normalizálása • ki kell számolni a horizontális projekció deriváltját • venni kell az értékek közül a legnagyobb 20%-ba tartozókat • ezeknek a súlypontját ki kell számolni • az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél [4] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A betűk szélességének normalizálása • az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes) Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A betűk szélességének normalizálása • a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása • ez a darabszám jó becslést ad arra mennyi betű lehet a sorban • ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kép intenzitásértékeinek normalizálása • A kép intenzitásértékeinek széthúzása 0-255 tartományba: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A jellemvektor • offline-felismerés esetén 9 jellemző • a számtani közepe a pixelek szürkeárnyalatos intenzitásainak, • a pixelek súlypontja, • a pixelek másodrendű súlypontja, • a legfelső és legalsó pixelek helye, • ezen helyek változásának mértéke a környező ablakokhoz képest, • az előtér és háttér váltások száma a legfelső és legalsó pixelek között, • az előtér pixelek eloszlása a legfelső és legalsó pixelek között. • online-felismerés esetén 25 jellemző • a fenti jellemzők mellett még pl.: • a toll nyomásának mértéke • a tollvonás sebessége • az előző és következő időkeretben lévő pontokkal bezárt szög • az előző és következő időkeretben lévő pontok közti távolság • stb. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A jellemvektorok időkeretenként Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Kitekintés A jellemvektorok felhasználása: • A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően: • Rejtett Markov Modellek (HiddenMarkovModels - HMMs) • Mesterséges Neuronhálózatok (ArtificialNeuralNetworks – ANNs) • A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés • Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Irodalomjegyzék • [1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skewangleestimationfor printed and handwrittendocumentsusingtheWigner-Villedistribution”, Image and VisionComputing 20, 2002, pp. 813-824 • [2] R. Manmatha és J. L. Rothfeder, „A ScaleSpaceApproachforAutomaticallySegmenting Word fromHistoricalHandwrittenDocuments”, IEEE TransactionsonPatternAnalysis and MachineIntelligence, vol 27, no. 8, 2005, pp. 1212-1225 • [3] M. Pastor, A. Toselli és E. Vidal, „Projection ProfileBasedAlgorithmforSlantRemoval”, Image analysis and recognition: internaionalconference, ICIAR 2004, part 2, 2004, pp. 183-190 • [4] M. Schüßler és H. Niemann „A HMM-based System forRecognition of HandwrittenAddressWords”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Kérdések Köszönöm a figyelmet Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány