1 / 19

Vài điểm về nhận dạng text và object

Vài điểm về nhận dạng text và object. OCR trên văn bản. Công nghệ đã trưởng thành từ lâu , ở Việt Nam cũng gần 20 năm . Các sản phẩm commercial (ABBYY, Nuance… ) có độ chính xác cao , support nhiều thứ tiếng . Có hệ thống open source như Tesseract. OCR trên ảnh.

ismet
Download Presentation

Vài điểm về nhận dạng text và object

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vàiđiểmvềnhậndạng text và object

  2. OCR trênvănbản • Côngnghệđãtrưởngthànhtừlâu, ở Việt Nam cũnggần 20 năm. • Cácsảnphẩm commercial (ABBYY, Nuance… ) cóđộchínhxáccao, support nhiềuthứtiếng. • Cóhệthống open source nhưTesseract.

  3. OCR trênảnh • Mộtsốvấnđềphátsinh: • Chấtlượnghìnhảnh. • Lẫnráctừ background. • Ítchữ, hệthống dictionary correction khólàmviệc. • Cácbướcxửlý:

  4. Text detection & localization • Ảnh CGI tươngđốidễ, cáchệthống top end đạt ~80% precision, ~90% recall tùymức aggressive. • Ảnhtựnhiênkhóhơn: ánhsáng, phảnchiếu, perspective distortion, compression artefact. • Pháthiện text theocụmchữ: dựavàovịtrítươngđối, so sánhkíchthước, mứcđộđồngnhấttrongmộtsố parameter. • Pháthiện text theochữlẻ: độtươngphảntrên edge map, contour đóngkín, độdàycủanét.

  5. Text detection & localization • Dùng OCR tạichỗđểhỗtrợ. • Dùng tracking trong video đểpháthiện text, loạibỏkếtquảrác. • Điềuchỉnhtốcđộvsđộchínhxácdựatrênsốlượng parameter.

  6. Text enhancement • Điềuchỉnhđộsáng, tươngphản (standard). • Loạibỏ background. • Sửachữbịđứthoặcnhòe (bằng filter đơngiản).

  7. Dùng OCR đểphânloạivănbản • Dùng keyword và rule đểpháthiệncác element cơbản: tênngười, địachỉ, sốtiền, ngàytháng, khối text… • Xếpthứtựcác element cơbảntheovịtrívàtầnsốtrênvănbản. • Train classifier đểphânloại: thư, form, hóađơn, bàibáokhoahọc…

  8. Tìmkiếmvànhậndạng object bằng visual word • Bốnvấnđề: phânloại (classification), nhậndạng (recognition), tìmkiếm (detection), địnhvị (segmentation). • Khácbiệtvới face recognition: • Mỗiloại object cócấutrúchìnhhọcriêng, thuậttoánphảitựnắmbắtđượccấutrúcnày. • Mộtsốloại object rấtđadạng (ghế, giày… ).

  9. Tìmkiếmvànhậndạng object bằng visual word • Cácloại classifier: • Binary classifier. • Multiclass classifier (cóthểghéptừcác binary classifier). • One-class classifier (dùngchonhậndạng).

  10. Visual word • Khi extract các feature từảnh, tacần cluster các feature gầngiốngnhauthànhmột visual word đểtăngđộổnđịnhchoviệcphânloại. • Dùngmộttậphợpảnhmẫucóđủcácloại feature. • Extract feature (SIFT, dense SIFT, OSID, GLOH, SURF…) từcácảnhmẫu. • Cluster các feature nàylại, mỗi cluster làmột visual word. • Trongthựctếthườngdùngtừ 1000 – 4000 cluster. • Saunàykhiphântíchảnh, mỗi feature sẽứngvới visual word gầnnhất.

  11. Object classification • Cácbướccơbản: • Extract feature từảnh. • Dựng descriptor từcác visual word. • Train classifier. • Phânloại. • Nếu feature nhạycảmvớiloạibiếnđổinào, tacần normalize biếnđó (scale, luminosity…). • Descriptor cầndiễntảcấutrúchìnhhọccủaobject.

  12. Spatial pyramid • Chiaảnhthànhcáclưới 1x1, 2x2, 4x4… rồi extract các visual word trêntừng ô lưới. • Danhsách visual word củamỗi ô đượcđếmvàomột histogram, rồinốilạithành descriptor. • Cóthểdùngbấtcứloại classifier nàotrêncác descriptor, phổbiếnnhấtlà SVM. • Cáchnàynhanhvàđơngiản, nhưngkhôngổnđịnhkhi object bịxoaygóchoặcdịchchuyển.

  13. Hidden Markov Model • Cácvisual word đượcxếptheovịtrítrongảnh, descriptor củamỗiảnhlàmộtchuỗinày. • Mỗi descriptor tínhlàmột observation sequence từ Hidden Markov Model. • Train model từtậphợpcác descriptor củamộtloại object, theothuậttoáncủa Levinson. • Phânloạiảnhbằngcáchtínhxácsuất descriptor củaảnhđượcquansáttừmỗi model đã train.

  14. Hybrid HMM system • Bắtđầutừmột universal background model, đạidiệnchotrườnghợptổngquát. • Vớimỗi descriptor ta train lạiuniversal background model chophùhợpvới observation sequence đó, kếtquảlàmột HMM mới. • Hai HMM đượccoilàxanhaunếukhoảngcáchKullback-Leibler divergence lớn. • KL divergence khôngphảilà metric, nhưngtrongtrườnghợpnàytacóthểtínhtoánmột metric gầnvớinó.

  15. Hybrid HMM system • Nhưvậymỗi HMM mớicóthểcoinhưmộtđiểmtrongkhônggian metric đểđưavàobàitoánphânloại. • Tronghệthốngnày, HMM chủyếusửdụngđểmôtảcấutrúchìnhhọccủa object. • Cóthểápdụngcácthủthuậtphânloạitrongkhônggian metric. • Khithêmdữliệu training, chỉcầntrain phầnHMM củadữliệumới. • Tuynhiênmỗiảnhđưavàophânloạiđềucầntrain HMM riêng.

  16. Object recognition • Phươngánđơngiảnlàdùng object classification vớimột background class. • Tùytheoloại object đểđiềuchỉnh background class. • Cácmẫu object cóthểphảichiathànhnhiều sub-class, tùytheogócđộ, ánhsáng, màusắc… đểtránhnhậnnhầm (false positive).

  17. Object detection • Tìmgiátrịcựcđạicủa decision function trongảnh (phầnảnhcóxácsuấtcaonhấtlàmẫu object). Nếugiátrịnàycaohơnmộtmức • Dùng search window: • Tốcđộnhanh, độchínhxácvừaphải. • Cầnướclượngkíchthướcvàtỷlệcủa object (cóthểướclượngtừdữliệu training). • Branch-and-bound: • Đảmbảochínhxác “tuyệtđối”. • Bound function phảiviếttay, tùytheo decision function củabộphận classifier. • Khôngđảmbảođượcthờigianchạy, cóthểrấtchậm.

  18. Object detection • Efficient subwindow search (C.H. Lampert): • Mộthìnhthức branch-and-bound dànhriêngchotìmkiếmảnh. • Chạyrấtnhanhvới SVM classifier nếu descriptor là scale invariant. • Nếuphải normalize descriptor thìthuậttoánnàyíttácdụng.

  19. Object segmentation • Tìmcác local maximum của decision function, đểtìmhếtcácmẫu object trênhình. • Cóthểdùngthuậttoánkhácđểđiềuchỉnhranhgiớicủa object tìmđược.

More Related