1 / 11

FrameWork: Wrapper Suite

FrameWork: Wrapper Suite. Michal Šimún. tp05@ googlegroups. com. Z ákladná architektúra. Program obaľovača. Obaľovač opísaný ako XML súbor Identifikácia akcií Prechodov medzi akciami – hierarchia akcií Premenné obaľovača Vytvorenie inštancie WrapperProgram

Download Presentation

FrameWork: Wrapper Suite

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. FrameWork: Wrapper Suite Michal Šimún tp05@googlegroups.com

  2. Základná architektúra

  3. Program obaľovača • Obaľovač opísaný ako XML súbor • Identifikácia akcií • Prechodov medzi akciami – hierarchia akcií • Premenné obaľovača • Vytvorenie inštancie WrapperProgram • Wrapper pracuje s aktuálnym Kontextom - obsahuje mapu DOM dokumentov, rozšírenie o cookies

  4. Program obaľovača • Štartovacia akcia • Výstupný DOM • Zoznam zapisovačov • Možnosť krokovania • http Client – knižnice Jakarta • html Parser – knižnica NekoHtml • loadWrapper – parser programu Wrappera

  5. Interpreter • Vykonanie programu parsera • Vytvorenie inštancie wrappera • Priradenie zapisovačov (OutputWriter) • Nastavenie krokovača • Spustenie Wrappera (metóda start)

  6. Lokátor uzlov a premenné • Lokátor uzlov, určuje podstrom, s ktorým sa bude v danom kontexte pracovať • InDocument – kde sa hľadá • XPathExp • RegExp – filtrovanie nájdený uzlov • Premenné – parametrizovaný reťazec (regulárne výrazy); Product = “processor” Uri = “http://www.products.sk/q=${Product}”

  7. Definované akcie • Spustenie pomocou metódy execute • LoadPage – uri, asDocumnet v kontexte • FollowLink - <a> tagFinder + LoadPage • WriteObject – objectName v kontexte => zapisoveče • ExtractData – exktrakcia dát z dokumentu na základe TagFinder, možná filtrácia RegExp, definovanie outPut do variable, objekt v kontexte dokumentu – OutputObjectPath = zjednoseny XPath

  8. Akcie • DoAllBranches – vykoná svojich následníkov • DoWhileNextLink – definuje sa lokátor next linky • ForEachTag – extrahuje podstrom dokumentu a uloží do kontextu ako nový dokument

  9. Spracovanie chýb • Princíp výnimiek • Handlere výnimiek: • StopThrowErrorHandler • ReturnBackErrorHandler • IgnoreContinueErrorHandler • ExecuteCommandErrorHandler

  10. Návrh rozšírenia • Tvorba rozhrania, učenia (vzory, filtre, komunikačný kanál) • Vytvorenie XML => tvorba obaľovača – podpora stromu akcií ??? • Zmena akcií ExtractData, WriteObject, rozšírenie akcii o prácu so vzormi • Súčasťou akcií bude aj lokálny kontext zdedený po predkovi

  11. Ďakujem za pozornosť

More Related