1 / 27

Optical Character Recognition ili OCR

Optical Character Recognition ili OCR. Mr.sc. Nikolina Stanić Loknar Grafički fakultet Zagreb. Optical Character Recognition ili OCR

gwen
Download Presentation

Optical Character Recognition ili OCR

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Optical Character Recognition ili OCR Mr.sc. Nikolina Stanić Loknar Grafički fakultet Zagreb

  2. Optical Character Recognition ili OCR je tehnologija koja omogućuje konvertiranje, prevođenje različitih tipova slikovnih dokumenata u formate kojima može manipulirati računalo (to su npr. ASCII ili UNICODE kodovi)

  3. Skenirane slike, PDF dokumente ili slike ubačene u računalo pomoću digitalne kamere OCR tehnologija prepoznaje i prebacuje u formate koji mogu biti prerađivani ili dorađivani u programima za obradu teksta kao npr. Microsoft Word • OCR sustavse sastoji od optičkog skenera za čitanje teksta i sofisticiranog softvera za analiziranje slika

  4. Većina OCR sustava koristi kombinaciju hardvera i softvera koja prepoznaje slovne znakove • Napredni OCR sustavi mogu čitati tekstove pisane velikim brojem fontova, pa i rukopisne fontove

  5. Postoje dvije osnovne metode koje se koriste za OCR: • uspoređivanje matrica (eng. Matrix matching) i • Pronalaženje ključnih obilježja (eng. Feature extraction)

  6. Jednostavnija i učestalija metoda je Matrix matching • Matrix matching metoda uspoređuje što skener vidi kao slovni znak sa popisom slovnih matrica ili predložaka • Kada skenirana slika odgovara jednoj od zadanih matrica unutar postavljenog stupnja sličnosti računalo joj dodjeljuje kôd jednog od ASCII znakova.

  7. Pronalaženje ključnih obilježja je OCR sustav bez točnog podudaranja s zadanim predloškom - Inteligentno prepoznavanje znakova • Ta metoda ovisi o “računalnoj inteligenciji” postavljenoj od strane proizvođača • Računalo traži osnovne oblike kao što su: otvorene površine, zatvoreni oblici, dijagonalne linije itd

  8. Uspoređivanje matrica najbolje funkcionira kada se radi s manjim brojem različitih pismovnih rezova i s malim razlikama unutar jednog reza • Kada postoje veće razlike u izgledu slova metoda Inteligentnog prepoznavanja znakova je prikladnija

  9. OCR fontovi su oni koje može raspoznati i pročitati ljudsko oko i uređaj za čitanje OCR fontova Sadrže slovne znakove od A do Z, brojeve i nekoliko posebnih znakova Svaki znak u fontu ima definiranu veličinu i oblik u kojem se pojavljuje OCR fontovi su definirani od ANSI organizacije

  10. Uređaji za čitanje OCR fontova dijele se u dvije skupine: • uređaji za unos teksta i • uređaji za učitavanje podataka

  11. Uređaji za unos teksta mogu skenirati čitave dokumente ili velike dijelove dokumenata • Izvor podataka je unesen s namjerom da ga netko mijenja za vrijeme ili nakon skeniranja • Uređaji za unos teksta imaju različite stupnjeve automatizacije: od ručnog unosa do automatskog unosa, čitanja, razvrstavanja i kapaciteta memorije

  12. Uređaji za učitavanje podataka koriste postupak gdje skenirani podaci dostavljeni računalu moraju biti vrlo precizni jer su uneseni bez namjere da ih se kasnije mijenja • Točnost pri unosu podataka mora biti puno veća nego kod unosa teksta

  13. Postoji mnogo razloga za korištenje OCR metode skeniranja u odnosu na ostale načine unosa podataka: • OCR smanjuje mogućnost nastanka pogreške prilikom unosa podataka • konsolidira podatke prilikom ulaska • čitljiv je i za ljudsko oko • može se koristiti za različite tehnike tiska

  14. Prednosti OCR-a nad barkodom • OCR je prikladniji za unos podataka u kontroliranim uvjetima za bilo koji broj znakova • prikladan je kod ulaska i izlaska novčanih pošiljaka ili sličnih vrijednosnica u novčarske institucije • može sadržavati više od četrdeset znakova i različit broj dostupnih informacija, npr. datum dospijeća računa, broj računa, iznos, vrsta usluge i sl

  15. Barkod je najprikladniji za identifikaciju dijelova ili pojedinih predmeta u lošijim uvjetima ili pri učestalom ponavljanju istih nositelja podataka koji sadrže samo nekoliko znakova • pri identifikaciji i praćenju putničke prtljage u zračnom prometu • Barkodovi su otporniji na grublje rukovanje, ali zauzimaju puno više prostora • OCR može sadržavati do šest puta više informacija nego standardni barkod

  16. OCR A font OCR B font Barkod

  17. serijski broj na novčanici od 200 hrvatskih kuna tiskan OCR B fontom Upotreba OCR fontova: • znatno pomaže pri očitavanju, brojanju i spremanju novčanica u trezore banaka • pomaže i kod pronalaska krivotvorenih novčanica • Brojač pamti koji su serijski brojevi novčanica ušli u banku i ne može se dva puta pojaviti isti broj

  18. primjena OCR fontova kod putovnica • Tu optički čitači pomažu carinicima i graničnoj policiji kod pronalaska krivotvorenih putovnica • Isto tako, elektroničkim čitačima se lakše, sigurnije i brže obavlja carinska kontrola

  19. čitanje i prepoznavanje rukopisa koristeći OCR sustav : • Da bi se koristeći OCR sustav moglo pročitati i prepoznati tekst potrebno je najprije skenirati sliku sa rezolucijom od 300 dpi.

  20. Proces čitanja i prepoznavanja slovnih znakova program provodi u četiri koraka: 1. otvaranje slike, 2. čitanje slike, 3. provjera pravopisa 4. spremanje teksta u neki od programa za obradu teksta

  21. Nakon otvaranja i čitanja teksta program će prikazati sliku kao tekst • Program ne može odmah prepoznati sve slovne znakove • U početnoj fazi prepoznavanja slovnih znakova nekog novog fonta program neće prepoznavati znakove • Takvi, za program novi znakovi se moraju ručno korigirati na taj način da se program „uči“ prepoznavati znakove

  22. Označeno je kurentno slovo n i dodijeljen mu je znak slova n • Taj će znak pogram zapamtiti • OCR programi prepoznaju bitmap nakupine i u procesu učenja se određenoj količini bitmap nakupina dodjeljuje neki slovni znak • Program svaki znak sprema u bazu fontova koju stvara automatski • U bazi se nalaze svi slovni znakovi koje je program ikad pročitao i naučio.

  23. Baza rukopisnih OCR uzoraka

  24. Ponekad se dogodi da OCR u svoju bazu fontova pod nekim slovnim znakom spremi neke bitmap nakupine koje ne predstavljaju nikakvo slovo • To se može dogoditi ako je skenirani tekst loš ili ako postoje mrlje na papiru, što je čest slučaj kod dokumenata primljenih putem faksa • Takva pogrešno spremljena slova treba izbrisati iz baze OCR uzoraka

  25. Nakon što je program pročitao skenirani tekst i sliku pretvorio u slovne znakove radi se provjera pravopisa • To je dodatna kontrola da se provjeri da li je tekst dobro prepoznat i da li su riječi pravilno ispisane • U četvrtom koraku tekst se prebacuje i sprema u neki od programa za obradu teksta najčešće Microsoft Word

  26. Tekst nakon prepoznavanja u OCR programu

More Related