350 likes | 471 Views
Extrakce informac í z webových stránek pomocí extrakčních ontologií. Diserta ční práce. Obor: Informatika Školitel: Prof. Ing. Petr Berka, CSc. Martin Labsk ý Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra inf. a znalostního inženýrství labsky@vse.cz. Agenda.
E N D
Extrakce informacíz webových stránek pomocí extrakčních ontologií Disertační práce Obor: Informatika Školitel: Prof. Ing. Petr Berka, CSc. Martin Labský Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra inf. a znalostního inženýrství labsky@vse.cz
Agenda • Extrakce informací • Motivace, cíle a obsah disertační práce • Rozšířené extrakční ontologie • kombinace tří typů extrakčních znalostí • návrh jazyka EOL a implementace interpretu • algoritmy extrakčního procesu • Popis experimentů • oznámení o seminářích • kontaktní informace z webových stránek • popisy produktů • Závěry
Nalézt v dokumentech údaje předem definovaného sémantického typu Extrakce informací – příklady aplikací Seminář řečník ? místo ? začátek ? konec ? Extrakce informací
Extrakce informací – příklady aplikací Extrakce informací
Využití extrakce informací • Strukturované vyhledávání • hledání dle parametrů (např. výrobku) • disambiguace při vyhledávání (Jaguar, Johnsson) • Urychlení navigace v dokumentech • zvýraznění relevantních informací pro určitou úlohu • Automatické zodpovídání otázek • jaké je hlavní město... • Podpora automatického překladu • identifikace a nepřekládání jmen (Jan Kovář) • Podpora posuzování kvality webových stránek • např. zda medicínské stránky splňují formální kritéria jako je uvedení kontaktních informací Extrakce informací
Automatická extrakce informací • Alternativou je ruční anotace dokumentů jejich autory • např. FOAF (Friend Of A Friend) • k dispozici pouze výjimečně, navíc nemusí obsahovat potřebné informace • anotace může být (i záměrně) nepravdivá • Automatická extrakce informací • rychlé pokrytí velkého počtu dokumentů • využívá různé typy extrakčních znalostí • spolehlivost závisí na obtížnosti úlohy, zvolených algoritmech a jimi využitých extrakčních znalostech Extrakce informací
Agenda • Extrakce informací • Motivace, cíle a obsah disertační práce • Rozšířené extrakční ontologie • kombinace tří typů extrakčních znalostí • návrh jazyka EOL a implementace interpretu • algoritmy extrakčního procesu • Popis experimentů • oznámení o seminářích • kontaktní informace z webových stránek • popisy produktů • Závěry
Motivace • Manuální přístupy • řízení báze znalostí o mnoha extrakčních pravidlech je pro člověka obtížné • není snadné využít případná trénovací data • Trénované přístupy • často vyžadují velké množství trénovacích dat, která typicky nejsou pro specifickou úlohu dostupná • po sběru trénovacích dat je obtížné měnit extrakční schéma • Wrappery • využitelné jen pro dokumenty s pevnou formátovací strukturou (např. katalog zboží konkrétní website) • nelze spoléhat na známou formátovací strukturu konkrétních website pro úlohy, kde množina zpracovávaných website není předem dána Motivace, cíle a obsah disertační práce
Cíle a přínosy disertační práce • Využít tři různé typy znalostí pro extrakci informací z dokumentů • pravidla zadané expertem, • znalosti indukované z trénovacích dat, • pravidelné formátování dokumentů. • Navržení metody extrakčních ontologií a jazyka pro jejich reprezentaci • rychlé prototypování extrakčních aplikací • postupné zlepšování přesnosti a pokrytí přidáním dalších znalostí • snadné změny extrakčního schématu • Implementace prakticky využitelného extrakčního nástroje Ex • Rozšíření extrakce textových položek o extrakci obrázků Motivace, cíle a obsah disertační práce
Obsah disertační práce • Úvod • Současný stav extrakce informací • Klasifikace obrázků pro účely extrakce informací z webu • Extrakce informací pomocí skrytých markovských modelů • Rozšířené extrakční ontologie • Případové studie s využitím extrakčních ontologií • Závěr Motivace, cíle a obsah disertační práce
Agenda • Extrakce informací • Motivace, cíle a obsah disertační práce • Rozšířené extrakční ontologie • kombinace tří typů extrakčních znalostí • návrh jazyka EOL a implementace interpretu • algoritmy extrakčního procesu • Popis experimentů • oznámení o seminářích • kontaktní informace z webových stránek • popisy produktů • Závěry
Rozšířené extrakční ontologie • Termín extrakční ontologie zavedl (D.W. Embley, 2002) • metoda pro extrakci strukturovaných záznamů z internetu na bázi ručně zadaných regulárních výrazů • Navržené rozšířené extrakční ontologie • bohatší jazyk pro manuální zadání extrakčních znalostí • využívají navíc trénovací data a nesupervizované rozpoznání pravidelné formátovací struktury • kombinují extrakční znalosti na základě pravděpodobnostního modelu • reprezentovány navrženým a implementovaným jazykem Extraction Ontology Language (EOL) v rámci vyvinutého opensource nástroje Ex (ISMIS 2008), (KCAP 2007), (ESWC workshop 2006) Rozšířené extrakční ontologie
z trénovacích dat nesupervizované manuální extrakční indicie jiné znalosti příznaky značky v místech kde byl atribut klasifikován příznaky w1, w2,... Zapojení extrakčních znalostí v extrakční ontologii p r ... Rozšířené extrakční ontologie
Kombinace extrakčních indicií • Každá indicie Eje vybavena 2 odhady pravděpodobností vzhledem k předpovídanému atributu A: • přesnost indicie p = P(A|E) ... míra postačitelnosti • pokrytí indicier = P(E|A) ... míra nutnosti • Každému atributu je přiřazena apriori pravděpodobnost výskytu P(A) • označuje množinu indicií definovaných pro A • Předpokládáme podmíněnou nezávislostindicií v rámci : • Pomocí Bayesova vzorce určíme P(A | hodnoty indicií ve )takto: kde Rozšířené extrakční ontologie
Extrakční proces 1/4 • Předzpracování dokumentu, načtení formátovací struktury • Nalezení výskytů vzorů pro obsah a kontext atributů • Aplikace trénovaných klasifikátorů, označení jejich predikcí • Nalezení výskytů vzorů obsahujích reference na rozhodnutí klasifikátorů • Vytvoření kandidátů na hodnoty atributů (AC),nalezení možných koreferencí a skórování AC dle PAC = • Vytvoření svazu AC napříč dokumentem, uzly svazu jsou 3 typů: • (ac) obsahují právě jeden AC, (null) prázdné, (bg) na pozadí • uzel má skóre log(PAC) O(n) délka dokumentu O(|AC|) Washington , DC ... ... Rozšířené extrakční ontologie
Extrakční proces 2/4 • Nalezení nejlepší cesty svazem AC • cesta s nejlevnějším součtem skóre uzlů • uzly typu (ac) identifikují extrahované hodnoty atributů • první možný konec extrakce • Nesupervizovaná indukce formátovacích vzorů • AC na nejlepší cestě svazem dotázány na jejich formátovací „hnízdo“ • „hnízdo“ je sub-strom ve formátovací struktuře dokumentu, obsahující AC, jehož kořen je první blokový element (např. odstavec nebo buňka tabulky) • „hnízdo“ je použito jako nová indícíe pokud jeho četnost a odhad jeho přesnosti (pomocí rel. četností v dokumentu) překročí nastavené prahy O(k |AC|) průměrné větvení svazu O(n |AC|) * formátovací „hnízdo“ naučené pomocí správně rozpoznaných jmenpomáhá identifikovat jinak špatně rozpoznatelné atributy TD TD B A_href B A_href John Doe jdoe@web.ca Argentina Agosto aa@web.br Rozšířené extrakční ontologie
Extrakční proces 3/4 • Generování kandidátů na instance tříd (IC) • zdola nahoru postupným seskupováním jednotlivých IC s AC v jejich okolí • prováděno postupně šplháním formátovací strukturou nahoru od rozšiřovaného IC • pro rozšíření vybírán vždy nejlépe skórující IC, rozšířené IC skladovány v uspořádané frontě • řízeno a omezeno ontologií (kardinalita, axiomy a další indicie třídy) a nastavením výp. až O(n |AC|2) prost. až O(n2) • Skórování IC • Skóre PIC určeno dvěma složkami – na základě skóre obsažených AC a na základě indicií třídy • kde |IC| = počet atributů v IC, ACskip= AC v rozsahu IC který není jejím členem, PAC skip= odhad pravděpodobnosti, že AC je “planý poplach”, C= množina indicií známá pro třídu C, P(C|EC) kombinuje indicie dle stejného modelu jako pro atributy • Obě skóre zkombinovány pseudo-bayesovskou funkcí známou z exp. systému Prospector: Rozšířené extrakční ontologie
Extrakční proces 4/4 O(n |IC|) • Vložení validních IC do původního AC svazu • skóre validních IC finalizováno a IC prořezány dle skóre • každý validní IC je reprezentován novým uzlem, obcházejícím samostatné AC a uzly reprezentující „pozadí“ • skóre IC uzlu = • Nejlepší cesta AC+IC svazem identifikuje extrahované položky • algoritmus nalezení nejlepší cesty umožňuje definovat různá omezení pro položky na cestě (min/max počet instancí nebo atributů určitého typu) • n-best O(k (|IC|+|AC|)) IC1 IC2 Rozšířené extrakční ontologie
Agenda • Extrakce informací • Motivace, cíle a obsah disertační práce • Rozšířené extrakční ontologie • kombinace tří typů extrakčních znalostí • návrh jazyka EOL a implementace interpretu • algoritmy extrakčního procesu • Popis experimentů • oznámení o seminářích • kontaktní informace z webových stránek • popisy produktů • Závěry
Experimenty: e-mailová oznámení o seminářích • 485 anglických e-mailových oznámení o seminářích na Carnegie-Melon University. • Manuální EO: vytvořena člověkem na základě 50 náhodně vybraných dokumentů, testována na zbývajících 435 dokumentech. • Kombinovaná EO: stejná ontologie vybavená CRF klasifikátorem. Pro atribut Location jsou manuální indicie použity jen jako příznaky klasifikátoru, pro ostatní atributy jsou manální indicie plně zapojeny. 10-násobná křížová validace na testovací sadě 435 dokumentů. (KI 2008 – Ontology-based Information Extraction Systems Worskhop) Popis experimentů
Villain score hodnotí přesnost seskupování atributů Experimenty: kontaktní informace z HTML • Kolekce heterogenních webových stránek z medicínské domény ve 3 jazycích • Manuální EO: vyvinuta člověkem pomocí 30 dokumentů z každé kolekce, testována na zbytku dokumentů s využitím indukce formátovacích vzorů • Kombinovaná EO: manuální EO doplněná CRF klasifikátorem, manuální indicie použity samostatně i jako příznaky pro CRF, 10-násobná kříž. validace na testovacích dokumentech • EN: 116dokumentů, 7000 entit, 1131 instancí tříd, DE: 93/4950/768, CZ: 99/11000/2506 (ECAI 2008), (Datakon 2007) Popis experimentů
Experimenty: nabídky bicyklů z HTML • Kolekce 103 dokumentů / 4100 entit z různých website ve V.Británii nabízejících bicykly • Manuální EO: vyvinuta člověkem pomocí 50 dokumentů, testována na zbytku • FPI EO: manuální EO se zapnutou indukcí formátovacích vzorů • HMM EO: využívá pouze trénovaný HMM model, datotypová omezení a axiomy • Kombinovaná EO: Využívá HMM model pro všechny atributy kromě ceny a slevy (Znalosti 2004), (ECML/PKDD 2004) 23,5% Popis experimentů
aplikace: malý strukturovaný vyhledávač, autory webového rozhraní jsou kolegové z KEG • Vyvinuto několik binárních klasifikátorů obrázků (bicykl ano/ne) • příznaky: rozměry, barevný histogram, počet výskytů ve stránce, podobnost k trénovací kolekci pozitivních příkladů (Praks, 2002) • 2.6% = chybovost kombinovaného klasifikátoru (10-CV na 1600 obrázcích) • HMM model propojen s klasifikátorem obrázků tak, že lexikální distribuce stavů emitují třídy obrázků předpovídané klasifikátorem • 88% F-míra pro obrázky jako součást popisu produktu Experimenty: HMM a extrakce obrázků • Skrytý markovský model s dedikovanými stavy pro extrahované položky a jejich kontext, inspirováno (Freitag, McCallum 2000) • Experimenty s nesupervizovaněindukovanými topologiemi • Rozšíření lexikálních distribucí stavů o n-gramové distribuce • Jediný model pro všechny extrahované položky: • 1 Background stav • 1 Target, 1 Prefix and 1 Suffix stav na 1 atribut B P T S P’ T’ S’ ... (RAWS 2005), (Web Intelligence 2005) Popis experimentů
Závěry • Vyvinuta metoda rozšířených extrakčních ontologií, umožňující • volitelné využití 3 různých typů extrakční znalosti • rychlé prototypování • snadné změny extrakčního schématu • Prezentovány výsledky pro reálné domény • oznámení o seminářích, kontaktní informace, popisy bicyklů • dokumentovány výhodnost kombinace různých typů znalostí a rychlé prototypování extrakčních úloh • vytvořeny klasifikátory obrázků, které byly úspěšně integrovány do vyvinutého extrakčního HMM modelu • Vytvořen open-source extrakční nástroj Ex • distribuce, zdrojové kódy a příklady: http://eso.vse.cz/~labsky/ex • Java, 54000 řádků kódu • Publikace • S prací spojeno > 20 publikací na zahraničních i tuzemských konferencích a workshopech (autor / spoluautor)
Literatura a vybrané publikace • Embley, D.W., Tao, C., Liddle, S.W.: Automatically extracting ontologically specified data from HTML tables with unknown structure. In: Proc.ER 2002. • Karkaletsis, V., Karampiperis, P., Stamatakis, K., Labský, M., Růžička, M., Svátek, V., Polla, M., Mayer, M, Gonzales, D: Automating Accreditation of Medical Web Content. In: ECAI, Patras, IOS Press, 2008, ISBN 978-1-58603-891-5. • Labský, M., Nekvasil, M., Svátek, V.: Towards Web Information Extraction using Extraction Ontologies and (Indirectly) Domain Ontologies. In: K-CAP, Whistler, ACM, 2007, ISBN 978-1-59593-643-1. • Labský, M., Svátek, V.: Combining Multiple Sources of Evidence in Web Information Extraction. In: ISMIS, Toronto. Foundations of Intelligent Systems, Springer-Verlag, 2008, ISBN 978-3-540-68122-9. • Labský, M., Svátek, V., Nekvasil, M.: IE Based on Extraction Ontologies: Design, Deployment and Evaluation. In: KI– Ontology-based Information Extraction Systems, Kaiserslautern, CEUR-WS, 2008, ISSN 1613-0073. • Labský, M., Svátek, V.: On the Design and Exploitation of Presentation Ontologies for Information Extraction. In: ESWC/Mastering the Gap: From Information Extraction to Semantic Representation. Budva: KMI, The Open University, 2006. • Labský, M., Svátek, V., Šváb, O., Praks, P., Krátký, M., Snášel, V.: IE from HTML Product Catalogues: from Sorce Code and Images toRDF. Web Intelligence, Compiégne, IEEE, 2005, ISBN 0-7695-2415-X. • Labský, M., Svátek, V., Šváb, O.: Types and Roles of Ontologies inWeb Information Extraction. In: ECML/PKDD– Knowledge Discovery and Ontologies, Pisa, 2004. • Labský, M., Vacura, M., Praks, P.: Web Image Classification for Information Extraction. In: RAWS. VŠB TU, 2005, ISBN 80-248-0864-1. • Labský, M.: Product information extraction from semistructured documents using HMMs. Znalosti, VŠB TU, 2004 • Peshkin, L., Pfeifer, A.: Bayesian Information Extraction Network. In:Proc. Intl. Joint Conference on Artificial Intelligence, 2003. • Svátek, V., Labský, M., Nemrava, J., Kosek, J., Růžička, M.: Projekt MedIEQ: hodnocení zdravotnických webových zdrojů s využitím extrakce informací. Brno 14.-17.10.2006. In: DATAKON, Brno, MU, 2006 ISBN 80-210-4102-1. • Srovnání výsledků extrakčních nástrojů na úloze oznámení o seminářích: http://tcc.itc.it/research/textec/tools-resources/learningpinocchio/CMU
Děkuji za pozornost! • Otázky ?
Otázky oponentů (1/9) • Jak hodnotíte pro svoje řešení hlediska: • rychlého prototypování, • snadné změny extrakčních pravidel, • vyváženost přesnosti a potřebných nákladů (případně, času a kvalifikace asistenta trénování). • Manuální znalosti • podporují rychlé prototypování a změny schématu, podle doporučené metodologie se manuální znalosti vytvářejí v prvních fázích projektu • Trénovací data • pokud je třeba je pořídit, sběr probíhá v dalších fázích projektu, kdy už je extrakční schéma stabilní
Otázky oponentů (2/9) • Nakolik je řešení vázáno na daný styl webovských stránek a jak je odolné na změny. • Manuální znalosti • zda a do jaké míry je formátování přítomno v pravidlech • Indukované formátovací vzory • Adaptace na konkrétní formátování website probíhá nesupervizovaně během vlastní extrakce • Indukované formátovací vzory se nepoužívají pro další website extrakční ontologie nejsou závislé na konkrétním formátování
Otázky oponentů (3/9) • Jaké výsledky na daných problémech, datechdosahují veřejně dostupné prostředky? • Extrakce oznámení o seminářích je jedna z často používaných srovnávacích úloh: Výsledky pro BIEN převzaty z (Peshkin, 2003); pro LP2, SRV, Rapier a Whisk je zdrojem http://tcc.itc.it/research/textec/tools-resources/learningpinocchio/CMU • Samotný CRF++ nástroj se základní množinou příznaků dosáhl pro kontakty výrazně nižší F-míry, zlepšení nastává v případě kombinace s extrakční ontologií (ve smyslu rozšíření množiny příznaků i kombinace s manuálními indiciemi)
Otázky oponentů (4/9) • Metadata, např. XML schéma k extrakční ontologii? • Pro jazyk EOL je k dispozici DTD (document type definition) na doprovodném CD: • ex/models/eol.dtd
Otázky oponentů (5/9) • Není jasné kolik práce a znalostí je třeba nanastavení parametrů „vah“, nakolik je automatické a nakolik ruční. • Semináře: • Kontakty: • Bicykly:
Otázky oponentů (6/9) • Zajímalo by mě, jaké jsou možnosti aplikace popsaných metod pro web 2.0, 3.0 atd,vzhledem k tomu, že jisté části extrakce jsou vázány na technologické prvky webových stránek. • Web 2.0– existující druhá generace technologií a designu vysoce interaktivních webových stránek a aplikací, často využívající intenzívní komunikaci mezi klientem a serverem a rozsáhlé schopnosti prohlížeče. (volně dle Wikipedie) • pro extrakci z Web 2.0 stránek lze využít API prohlížeče a jeho reprezentaci dokumentu • navržená metoda není v principu omezena na webové stránky, lze ji aplikovat na dokumenty bez jakéhokoliv struktury na druhé straně je možné využít i jiného hierarchického formátovaní než HTML • Web 3.0– očekávaná další generace „sémantického webu“, kde stroje do určité míry „rozumějí“ jeho obsahu, např. jsou schopny odvozování nad prezentovanými fakty a mohou provádět operace pomocí sémanticky anotovaných webových služeb. • IE obecně je jednou z technik které by mohly „plnit“ potřebné báze znalostí
Otázky oponentů (7/9) • Jaká je časová a prostorová složitost prezentovaného řešení? • Extrakční ontologie • viz slidy 15-18 „extrakční proces“ • Skryté markovské modely – nalezení nejlepší cesty Viterbi algoritmem • časová O(n s2) • prostorová O(ns) • kde n=délka analyzovaného textu, s=počet stavů • Klasifikátor obrázků • O(velikost obrázku) pro zjištění příznaků (histogram) • dále v závislosti na použitém algoritmu strojového učení
Otázky oponentů (8/9) • Jak rozsáhlé experimenty byly provedeny? • Emailová oznámení o seminářích • 485 dokumentů, 3000 pojmenovaných entit 4 typů, 1 oznámení na email • Extrakce kontaktních informací z heterogenních webových stránkek v medicínské doméně pro 3 jazyky • extrakce pojmenovaných entit 10 typů a seskupování do instancí 1 třídy • Extrakce popisů bicyklů z heterogenních webových stránek obchodů • 108 dokumentů, 4000 atributů 15 typů včetně 630 obrázků kol • Binární klasifikace obrázků na kolekci 1600 obrázků • Extrakce popisů počítačových monitorů a televizí z web. obchodů • 500 webových stránek s monitory, 60 s televizemi
Otázky oponentů (9/9) • Bude proces extrakce ontologie dávat pro různá vstupní nastavení stejné ontologie pro danou kolekci stránek? • Extrakční ontologie zůstává během extrakce neměnná • nesupervizovaně se indukují pouze formátovací vzory, které ale nejsou persistentní a jejich působnost je omezena pouze na dokument, na základě kterého byly indukovány • Výsledky extrakce závisí na nastavení • systém lze konfigurovat pomocí velkého množství parametrů (cca 20), např. n-best, zda generátor instancí může „přeskakovat“ AC kandidáty nevhodné pro budovanou instanci, omezení prostoru generování instancí jako abs. a rel. šířka beamu v mřížce, prahy pro minimální pravděpodobnost AC a IC • Další „parametry“ obsahuje samotná extrakční ontologie a na ni napojené klasifikátory