170 likes | 455 Views
Miranda Kreković Josip Kukučka Jurica Šprem Ivana Zadro Zagreb, 24.01.2013. Ekstrakcija i prepoznavanje slova u digitalnim slikama. Uvod i opis područja. Eng. OCR, Optical Character Recognition Primjene : pomoć slijepim osobama, arhiviranje dokumenata... Metode: Eulerov broj
E N D
Miranda Kreković Josip Kukučka Jurica Šprem Ivana Zadro Zagreb, 24.01.2013. Ekstrakcijaiprepoznavanjeslova u digitalnimslikama
Uvod i opis područja • Eng. OCR, Optical Character Recognition • Primjene : pomoć slijepim osobama, arhiviranje dokumenata... • Metode: • Eulerov broj • raspodjela gustoće crnih piksela na slici, • broj vertikalnih i horizontalnih presjeka • metoda centralnih momenata
Naši zahtjevi • Uspravna slika (nema rotiranog teksta) • Rezolucija teksta (dokument skeniran s 200 dpi)
Predobrada • RGB siva slika • Siva binarna slika Adaptivni prag
Segmentacija • Izdvajanje redaka slova • Sobelov operator • Morfološke operacije • Izdvajanje slova iz pojedinog retka
Izdvajanje redaka slova Sobelov operator za uklanjanje tablica ili okvira Morfološki operatori “Clean” i “Spur”
Prepoznavanje znakova • Cilj: svakom izdvojenom znaku pridružiti njegov reprezentant iz baze • Baza je skup četiri podskupa od 91 znaka (mala i velika slova hrvatske abecede, brojevi, interpunkcijski znakovi, ...) • Dimenzije: 14, 26, 30, 52
Prilagodba izdvojenog znaka • Micanje bijelih rubova • Skaliranje na dimenzije baze
Usporedba • Usporedba s predlošcima (Template matching) • Eulerov broj • Raspodjela gustoće crnih piksela • Broj vertikalnih i okomitih presjeka • Centralni momenti
Eulerov broj • Pomoćna metoda • Razlika objekata na slici i broja zatvorenih površina • Za znakove iz baze je u intervalu [-1, 2] • Npr. za ‘A’ = 0, ‘B’ = -1, ‘C’ = 1, ‘i’ = 2
Raspodjela gustoće crnih piksela • Podjela slike na preklapajuće pravokutnike (16 ili 25, ovisno o dimenziji) • Značajka je matrica vrijednosti: gdje su A i B dimenzije pojedinog pravokutnika
Broj vertikalnih i okomitih presjeka • Kroz svaki piksel provučena su dva pravca • Značajka je matrica istih dimenzija • Vrijednosti elemenata su funkcija broja presjeka pravaca s rubovima slova
Usporedba metodom Eulerov broj • Postiže se visoka točnost • Koristi se kao pomoćna metoda u kombinaciji s preostalim • Smanjuje računarsku kompleksnost postupka (ubrzanje 3 puta)
Usporedba • Računa se razlika matrice značajki izdvojenih i znakova iz baze • Matrica razlike provlači se kroz određene nelinearne funkcije (potencije) radi ostvarenja većeg stupnja razlikovnosti • Usporedbena veličina je suma svih elemenata takve matrice • Minimizacijom se dobiva indeks znaka iz baze
Zaključak • Uspješnost izdvajanja znakova iz digitalne fotografije je 97.1% • Rezultati prepoznavanja variraju po metodama usporedbe i veličini matrice znaka • Najbolji rezultati postižu se za kombinaciju metode euler i raspodjele gustoće crnih piksela na dimenziji 52
Hvala na pažnji! Nema pitanja?