420 likes | 577 Views
Extrakce informac í pomocí extrakčních ontologií. Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačního a znalostního inženýrství. Martin Labsk ý Voice Technologies and Systems Group IBM ČR. martin.labsky@cz.ibm.com. Agenda. Extrakce informací, motivace
E N D
Extrakce informacípomocí extrakčních ontologií Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačního a znalostního inženýrství Martin Labský Voice Technologies and Systems Group IBM ČR martin.labsky@cz.ibm.com
Agenda • Extrakce informací, motivace • Metody extrakce informací • vybrané algoritmy a nástroje • Rozšířené extrakční ontologie • kombinace tří typů extrakčních znalostí • návrh jazyka EOL • extrakční algoritmy • Experimenty a případové studie • kontaktní informace z webových stránek • oznámení o seminářích • popisy produktů včetně obrázků • Shrnutí
Nalézt v dokumentech údaje předem definovaného sémantického typu Extrakce informací – příklady aplikací Seminář řečník ? místo ? začátek ? konec ? Extrakce informací
Extrakce informací – příklady aplikací Extrakce informací
Využití extrakce informací • Strukturované vyhledávání • hledání dle parametrů (např. výrobku), porovnání napříč weby • disambiguace při vyhledávání (Jaguar, Johnsson) • Urychlení navigace v dokumentech • zvýraznění relevantních informací pro určitou úlohu • Automatické zodpovídání otázek • jaké je hlavní město... • Podpora automatického překladu • identifikace a nepřekládání jmen (Jan Kovář na John Smith) • Podpora posuzování kvality webových stránek • např. zda medicínské stránky splňují formální kritéria jako je uvedení kontaktních informací Extrakce informací
Automatická extrakce informací • Alternativou je ruční anotace dokumentů jejich autory • např. FOAF (Friend Of A Friend) • k dispozici pouze výjimečně, navíc nemusí obsahovat potřebné informace • anotace může být (i záměrně) nepravdivá • Automatická extrakce informací • rychlé pokrytí velkého počtu dokumentů • využívá různé typy extrakčních znalostí • spolehlivost závisí na obtížnosti úlohy, zvolených algoritmech a jimi využitých extrakčních znalostech Extrakce informací
Typy extrakčních úloh • Dle typu zpracovávaného vstupu • množství formátování (žádné – rich text – tabulky) • gramatičnost textu (odstavce gramatických vět – útržky) • extrakce netextových prvků (obrázky) • Dle pokrytí • omezeno na homogenní skupinu dokumentů (konkrétní website) • omezeno na doménu (např. nabídky práce, oznámení o seminářích) • bez omezení (např. extrakce jmen osob z libovolného textu) • Dle složitosti oboru hodnot extrahovaných prvků • konečný a „malý“ (např. názvy zemí) • možno pokrýt formální gramatikou (regulárními výrazy, např. email) • možno pokrýt složitějším vzorem (např. standardní poštovní adresa určité země) • otevřené obory hodnot (jména lidí) • Dle míry nejednoznačnosti hodnot extrahovaných prvků • relativně jednoznačné (světadíly) – nejednoznačné (příjmení) • Dle struktury extrahovaných prvků • extrakce izolovaných prvků (jméno člověka) • extrakce prvků v binárních relacích (člověk zaměstnánve firmě) • extrakce záznamů o více prvcích „plnění šablon“ (informace o fůzi, kontaktní údaje) volně dle Cohen, 2004
Agenda • Extrakce informací, motivace • Metody extrakce informací • vybrané algoritmy a nástroje • Rozšířené extrakční ontologie • kombinace tří typů extrakčních znalostí • návrh jazyka EOL • extrakční algoritmy • Experimenty a případové studie • kontaktní informace z webových stránek • oznámení o seminářích • popisy produktů včetně obrázků • Shrnutí
IE algoritmy dle typu využité extrakční znalosti • Wrappery • opírají se o pevnou formátovací strukturu dokumentů z nichž může extrakce probíhat • relevantní pozice ve formátovací struktuře lze definovat manuálně; několik příkladů postačí k naučení „wrapperu“ • Algoritmy strojového učení nevyžadující pravidlené formátování • pravděpodobnostní metody (HMM, MEMM, CRF, Bayesovské sítě) • subsymbolické metody (SVM, neuronové sítě) • indukce pravidel z dat (LP2, Rapier) • Metody založené na ručních pravidlech • pravidla založená typicky na regulárních výrazech a datových typech hledaných atributů • pravidla typicky hledající extrahované informace podle jejich obsahu a kontextu • Doplňkové metody: bootstrapping a aktivní učení
Extrakční wrappery • Wrappery dle způsobu vzniku • ruční tvorba (ve specializovaném jazyce nebo pomocí grafického IDE) • supervizovaně trénované (typicky interaktivně, postačí několik příkladů) • nesupervizovaně trénované (na množině dokumentů rozpoznají měnící se datové části dokumentů a ty extrahují) • Reprezentace a indukce wrapperů • ručně zadaná specifikace v příslušném jazyce • naučená pravidla založená na kontextech a ev. obsazích extrahovaných položek • třídy wrapperů založené na oddělovačích, např. WIEN (Kushmerick) • varianty pokrývání množin: Whisk, Stalker (využito v projektu Crossmarc) • naučený konečný automat (transducer) akceptující symboly dokumentu (slova a formátovací značky), který pro každý akceptovaný symbol určí extrahovanou třídu • SoftMealy (supervizovaný) • RoadRunner (nesupervizovaný) • Některé nástroje pro vývoj, běh a udržování wrapperů • Open-source: WebHarvest, XWrap, JScrape • Komerční IDE: Kapow, Lixto
Algoritmy strojového učení pro IE • Při aplikaci učících se algoritmů pro IE je třeba zvolit • učící se algoritmus • reprezentaci dokumentu • Algoritmy dle principu fungování • pravděpodobnostní metody (HMM, MEMM, CRF, Bayesovské sítě) • subsymbolické metody (SVM, neuronové sítě) • indukce pravidel z dat (LP2, Rapier) • Algoritmy dle typu zpracovávaných dat • klasifikátory izolovaných příkladů • značkovače sekvencí • Možné reprezentace dokumentu • sekvence slov • sekvence hranic mezi slovy • množina sousloví určitých délek (např. 1 až 5)
Metody IE založené na ručních pravidlech • Perl skripty s regulárními výrazy • Ruční tvorba wrapperů • např. WebHarvest • Anotování dle textového obsahu ontologií • slovníkové vyhledávání • Ontomat, Ontotext KIM plugin • využití regulární výrazů, slovníků a pravidelného formátování • extrakční ontologie • Extrakční jazyk JAPE • součástí extrakční komponenty ANNIE v rámci GATE
Doplňkové metody pro IE • Bootstrapping • Např. Pankow nebo Armadillo • „Prázdný“ IE algoritmus začíná s omezenou množinou pozitivních příkladů (např. jména prezidentů) • Algoritmus nalezne (např. na webu pomocí vyhledávače) časté dobře diskriminující kontexty ve kterých se známé pozitivní příklady nacházejí a indukuje z nich kontextová extrakční pravidla • Kontextová extrakční pravidla jsou použita k nalezení nových (pravděpodobně) pozitivních příkladů • GOTO 2 nebo vrať nalezené pozitivní příklady • Aktivní (interaktivní) učení • Melita, AKT • IE systém začíná s iniciálním nebo i prázdným extrakčním modelem, a množinou neoznačkovaných dokumentů • Systém vyzve uživatele, aby označkoval jeden dokument, na kterém si je současný extrakční model nejméně jistý • Nově anotovaný dokument je přidán do trénovacích dat a extrakční model přetrénován • GOTO 2 dokud není přesnost extrakce na neviděných testovacích dokumentech dostatečná
Nevýhody izolovaných přístupů • Wrappery • využitelné jen pro dokumenty s pevnou formátovací strukturou (např. katalog zboží konkrétní website) • nelze spoléhat na známou formátovací strukturu konkrétních website pro úlohy, kde množina zpracovávaných website není předem dána • Trénované přístupy • často vyžadují velké množství trénovacích dat, která typicky nejsou pro specifickou úlohu dostupná • po sběru trénovacích dat je obtížné měnit extrakční schéma • Manuální přístupy • řízení báze znalostí o mnoha extrakčních pravidlech je pro člověka obtížné • není snadné využít případná trénovací data Motivace, cíle a obsah disertační práce
Agenda • Extrakce informací, motivace • Metody extrakce informací • vybrané algoritmy a nástroje • Rozšířené extrakční ontologie • kombinace tří typů extrakčních znalostí • návrh jazyka EOL • extrakční algoritmy • Experimenty a případové studie • kontaktní informace z webových stránek • oznámení o seminářích • popisy produktů včetně obrázků • Shrnutí
Motivace pro rozšířené extrakční ontologie • Využít tři různé typy znalostí pro extrakci informací z dokumentů • pravidla zadané expertem, • znalosti indukované z trénovacích dat, • pravidelné formátování dokumentů. • Cílem extrakčních ontologií a jazyka pro jejich reprezentaci je • rychlé prototypování extrakčních aplikací, • postupné zlepšování přesnosti a pokrytí přidáním dalších znalostí, • snadné změny extrakčního schématu. • Implementace • extrakční nástroj Ex • rozšíření extrakce textových položek o extrakci obrázků Motivace, cíle a obsah disertační práce
Rozšířené extrakční ontologie • Termín extrakční ontologie zavedl (D.W. Embley, 2002) • metoda pro extrakci strukturovaných záznamů z internetu na bázi ručně zadaných regulárních výrazů • Navržené rozšířené extrakční ontologie • bohatší jazyk pro manuální zadání extrakčních znalostí • využívají navíc trénovací data a nesupervizované rozpoznání pravidelné formátovací struktury • kombinují extrakční znalosti na základě pravděpodobnostního modelu • reprezentovány navrženým a implementovaným jazykem Extraction Ontology Language (EOL) v rámci vyvinutého opensource nástroje Ex Rozšířené extrakční ontologie
z trénovacích dat nesupervizované manuální extrakční indicie jiné znalosti Zapojení extrakčních znalostí v extrakční ontologii p r Rozšířené extrakční ontologie
Kombinace extrakčních indicií • Každá indicie Eje vybavena 2 odhady pravděpodobností vzhledem k předpovídanému atributu A: • přesnost indicie p = P(A|E) ... míra postačitelnosti • pokrytí indicier = P(E|A) ... míra nutnosti • Každému atributu je přiřazena apriori pravděpodobnost výskytu P(A) • označuje množinu indicií definovaných pro A • Předpokládáme podmíněnou nezávislostindicií v rámci : • Pomocí Bayesova vzorce určíme P(A | hodnoty indicií ve )takto: kde Rozšířené extrakční ontologie
z trénovacích dat nesupervizované manuální extrakční indicie jiné znalosti příznaky značky v místech kde byl atribut klasifikován příznaky w1, w2,... Zapojení extrakčních znalostí v extrakční ontologii p r ... Rozšířené extrakční ontologie
Zapojení trénovaného klasifikátoru do E.O. implementace ex. algoritmu CRF reprezentace dokumentu: sekvence slov predikované atributy v rámci třídy trénovaný model použít znalosti definované v této E.O. jako příznaky • věříme pozitivním rozhodnutím klasifikátoru na 92% • věříme, že klasifikátor „odhalí“ aspoň 50% případů odkaz na rozhodnutí „speaker“ klasifikátoru „cls1“ použit ve vzoru ve <value> sekci atributu speaker.
Extrakční proces 1/4 • Předzpracování dokumentu, načtení formátovací struktury • Nalezení výskytů vzorů pro obsah a kontext atributů • Aplikace trénovaných klasifikátorů, označení jejich predikcí • Nalezení výskytů vzorů obsahujích reference na rozhodnutí klasifikátorů • Vytvoření kandidátů na hodnoty atributů (AC),nalezení možných koreferencí a skórování AC dle PAC = • Vytvoření svazu AC napříč dokumentem, uzly svazu jsou 3 typů: • (ac) obsahují právě jeden AC, (null) prázdné, (bg) na pozadí • uzel má skóre log(PAC) O(n) délka dokumentu O(|AC|) Washington , DC ... ... Rozšířené extrakční ontologie
Extrakční proces 2/4 • Nalezení nejlepší cesty svazem AC • cesta s nejlevnějším součtem skóre uzlů • uzly typu (ac) identifikují extrahované hodnoty atributů • první možný konec extrakce • Nesupervizovaná indukce formátovacích vzorů • AC na nejlepší cestě svazem dotázány na jejich formátovací „hnízdo“ • „hnízdo“ je sub-strom ve formátovací struktuře dokumentu, obsahující AC, jehož kořen je první blokový element (např. odstavec nebo buňka tabulky) • „hnízdo“ je použito jako nová indícíe pokud jeho četnost a odhad jeho přesnosti (pomocí rel. četností v dokumentu) překročí nastavené prahy O(k |AC|) průměrné větvení svazu O(n |AC|) * formátovací „hnízdo“ naučené pomocí správně rozpoznaných jmenpomáhá identifikovat jinak špatně rozpoznatelné atributy TD TD B A_href B A_href John Doe jdoe@web.ca Argentina Agosto aa@web.br Rozšířené extrakční ontologie
Extrakční proces 3/4 • Generování kandidátů na instance tříd (IC) • zdola nahoru postupným seskupováním jednotlivých IC s AC v jejich okolí • prováděno postupně šplháním formátovací strukturou nahoru od rozšiřovaného IC • pro rozšíření vybírán vždy nejlépe skórující IC, rozšířené IC skladovány v uspořádané frontě • řízeno a omezeno ontologií (kardinalita, axiomy a další indicie třídy) a nastavením výp. až O(n |AC|2) prost. až O(n2) • Skórování IC • Skóre PIC určeno dvěma složkami – na základě skóre obsažených AC a na základě indicií třídy • kde |IC| = počet atributů v IC, ACskip= AC v rozsahu IC který není jejím členem, PAC skip= odhad pravděpodobnosti, že AC je “planý poplach”, C= množina indicií známá pro třídu C, P(C|EC) kombinuje indicie dle stejného modelu jako pro atributy • Obě skóre zkombinovány pseudo-bayesovskou funkcí známou z exp. systému Prospector: Rozšířené extrakční ontologie
Extrakční proces 4/4 O(n |IC|) • Vložení validních IC do původního AC svazu • skóre validních IC finalizováno a IC prořezány dle skóre • každý validní IC je reprezentován novým uzlem, obcházejícím samostatné AC a uzly reprezentující „pozadí“ • skóre IC uzlu = • Nejlepší cesta AC+IC svazem identifikuje extrahované položky • algoritmus nalezení nejlepší cesty umožňuje definovat různá omezení pro položky na cestě (min/max počet instancí nebo atributů určitého typu) • n-best O(k (|IC|+|AC|)) IC1 IC2 Rozšířené extrakční ontologie
Implementace nástroje Ex • Systém provádí „extrakční úlohy“ v režimech: • testování, • supervizované trénování klasifikátorů, • n-násobná křížová validace, • n-násobná křížová validace s indukcí ngram rysů. • V rámci extrakční úlohy lze řetězit více parciálních úloh • několik instancí Exu nebo další nástroje • Evaluátor • přesnost, úplnost a F-míra (strict, loose) • Villain skóre hodnotící seskupování atributů do instancí • Opensource • Java, 54k řádek kódu
Agenda • Extrakce informací • Motivace, cíle a obsah disertační práce • Rozšířené extrakční ontologie • kombinace tří typů extrakčních znalostí • návrh jazyka EOL a implementace interpretu • algoritmy extrakčního procesu • Popis experimentů • oznámení o seminářích • kontaktní informace z webových stránek • popisy produktů • Shrnutí
Experimenty: oznámení o seminářích • 485 anglických e-mailových oznámení o seminářích na Carnegie-Melon University. • Manuální EO: vytvořena člověkem na základě 50 náhodně vybraných dokumentů, testována na zbývajících 435 dokumentech. • Kombinovaná EO: stejná ontologie vybavená CRF klasifikátorem. Pro atribut Location jsou manuální indicie použity jen jako příznaky klasifikátoru, pro ostatní atributy jsou manuální indicie plně zapojeny. 10-násobná křížová validace na testovací sadě 435 dokumentů. Popis experimentů
Oznámení o seminářích: výsledky IE systémů • Extrakce oznámení o seminářích je jedna z často používaných srovnávacích úloh: • Data viz http://tcc.itc.it/research/textec/tools-resources/learningpinocchio/CMU . Výsledky převzaty z: • BIEN: Peshkin, 2003 • Skip-chain CRF:Sutton, 2006 • LP2, HMM, SRV, Rapier a Whisk: Ciravegna, 2001 • Nejlepší výsledky dosahuje skip-chain Conditional Random Field a Bayesovská síť BIEN.
Villain score hodnotí přesnost seskupování atributů Experimenty: kontaktní informace z HTML • Kolekce heterogenních webových stránek z medicínské domény ve 3 jazycích • Manuální EO: vyvinuta člověkem pomocí 30 dokumentů z každé kolekce, testována na zbytku dokumentů s využitím indukce formátovacích vzorů • Kombinovaná EO: manuální EO doplněná CRF klasifikátorem, manuální indicie použity samostatně i jako příznaky pro CRF, 10-násobná kříž. validace na testovacích dokumentech • EN: 116dokumentů, 7000 entit, 1131 instancí tříd, DE: 93/4950/768, CZ: 99/11000/2506 Popis experimentů
Experimenty: nabídky bicyklů z HTML • Kolekce 103 dokumentů / 4100 entit z různých website ve V.Británii nabízejících bicykly • Manuální EO: vyvinuta člověkem pomocí 50 dokumentů, testována na zbytku • FPI EO: manuální EO se zapnutou indukcí formátovacích vzorů • HMM EO: využívá pouze trénovaný HMM model, datotypová omezení a axiomy • Kombinovaná EO: Využívá HMM model pro všechny atributy kromě ceny a slevy 23,5% Popis experimentů
Vyvinuto několik binárních klasifikátorů obrázků (bicykl ano/ne) • příznaky: rozměry, barevný histogram, počet výskytů ve stránce, podobnost k trénovací kolekci pozitivních příkladů (Praks, 2002) • 2.6% = chybovost kombinovaného klasifikátoru (10-CV na 1600 obrázcích) • HMM model propojen s klasifikátorem obrázků tak, že lexikální distribuce stavů emitují třídy obrázků předpovídané klasifikátorem • 88% F-míra pro obrázky jako součást popisu produktu Experimenty: HMM a extrakce obrázků • Skrytý markovský model s dedikovanými stavy pro extrahované položky a jejich kontext, inspirováno (Freitag, McCallum 2000) • Experimenty s nesupervizovaněindukovanými topologiemi • Rozšíření lexikálních distribucí stavů o n-gramové distribuce • Jediný model pro všechny extrahované položky: • 1 Background stav • 1 Target, 1 Prefix and 1 Suffix stav na 1 atribut Popis experimentů
Binární klasifikace obrázků: příznaky • Velikost • absolutní výška a šířka v pixelech • normalizovaná hodnota normálního rozdělení odhadnutého z pozitivních příkladů (obrázků kol) • 6,6% chyb (práh hodnoty rozdělení) • Barevný histogram • HSV reprezentace obrázku, pixely kvantizovány do 162 možných hodnot vektor četností o 162 pozicích • 5.2% chyb (Weka, PART rozhodovací seznam) • Míra podobnosti obrázku ke kolekci pozitivních trénovacích obrázků (ke K nejpodobnějším) • latentní sémantický index • 26% chyb • Kombinace příznaků • 2.6% chybovost, PART rozhodovací seznam • CV-10, 1600 obrázků
aplikace: malý strukturovaný vyhledávač, autory webového rozhraní jsou kolegové z KEG Experimenty: HMM a extrakce obrázků
Shrnutí • Rozšířené extrakční ontologie • volitelné využití 3 různých typů extrakční znalosti • rychlé prototypování • snadné změny extrakčního schématu • Experimentální domény • oznámení o seminářích • kontaktní informace • popisy bicyklů s obrázky • Open-source extrakční nástroj Ex • distribuce, zdrojové kódy a příklady: http://eso.vse.cz/~labsky/ex • Java, 54000 řádků kódu
Odkazy • Chan, C.H., Kayed, M., Girgiz, M.R., Shaalan, K.F.: A Survey of Web Information Extraction Systems. IEEE Transactions on Knowledge and Data Engineering, 2006. • Cohen, W.: Information Extraction and Integration: an Overview. 2004. Online tutorial, http://www.cs.cmu.edu/~wcohen/ie-survey.ppt • Uren, V., Cimiano, P., Iria, J., Handschuh, S., Vargas-Vera, M., Motta, E., Ciravegna, F.: Semantic annotation for knowledge management: Requirements and a survey of the state of the art. Web Semantics, 2006. • Embley, D.W., Tao, C., Liddle, S.W.: Automatically extracting ontologically specified data from HTML tables with unknown structure. In: Proc.ER 2002. • Karkaletsis, V., Karampiperis, P., Stamatakis, K., Labský, M., Růžička, M., Svátek, V., Polla, M., Mayer, M, Gonzales, D: Automating Accreditation of Medical Web Content. In: ECAI, Patras, IOS Press, 2008, ISBN 978-1-58603-891-5. • Labský, M., Nekvasil, M., Svátek, V.: Towards Web Information Extraction using Extraction Ontologies and (Indirectly) Domain Ontologies. In: K-CAP, Whistler, ACM, 2007, ISBN 978-1-59593-643-1. • Labský, M., Svátek, V.: Combining Multiple Sources of Evidence in Web Information Extraction. In: ISMIS, Toronto. Foundations of Intelligent Systems, Springer-Verlag, 2008, ISBN 978-3-540-68122-9. • Labský, M., Svátek, V., Nekvasil, M.: IE Based on Extraction Ontologies: Design, Deployment and Evaluation. In: KI– Ontology-based Information Extraction Systems, Kaiserslautern, CEUR-WS, 2008, ISSN 1613-0073. • Labský, M., Svátek, V.: On the Design and Exploitation of Presentation Ontologies for Information Extraction. In: ESWC/Mastering the Gap: From Information Extraction to Semantic Representation. Budva: KMI, The Open University, 2006. • Labský, M., Svátek, V., Šváb, O., Praks, P., Krátký, M., Snášel, V.: IE from HTML Product Catalogues: from Sorce Code and Images toRDF. Web Intelligence, Compiégne, IEEE, 2005, ISBN 0-7695-2415-X. • Labský, M., Svátek, V., Šváb, O.: Types and Roles of Ontologies inWeb Information Extraction. In: ECML/PKDD– Knowledge Discovery and Ontologies, Pisa, 2004. • Labský, M., Vacura, M., Praks, P.: Web Image Classification for Information Extraction. In: RAWS. VŠB TU, 2005, ISBN 80-248-0864-1. • Labský, M.: Product information extraction from semistructured documents using HMMs. Znalosti, VŠB TU, 2004 • Peshkin, L., Pfeifer, A.: Bayesian Information Extraction Network. In:Proc. Intl. Joint Conference on Artificial Intelligence, 2003. • Svátek, V., Labský, M., Nemrava, J., Kosek, J., Růžička, M.: Projekt MedIEQ: hodnocení zdravotnických webových zdrojů s využitím extrakce informací. Brno 14.-17.10.2006. In: DATAKON, Brno, MU, 2006 ISBN 80-210-4102-1. • Srovnání výsledků extrakčních nástrojů na úloze oznámení o seminářích: http://tcc.itc.it/research/textec/tools-resources/learningpinocchio/CMU • Praks,P.,Dvorský,J.,Snášel,V.:Latentsemanticindexingforimageretrievalsystems.In:SIAMConferenceonAppliedLinearAlgebra,Williamsburg,2003.
Děkuji za pozornost! • Otázky ? http://eso.vse.cz/~labsky/ex
Popis dat • Emailová oznámení o seminářích • 485 dokumentů, 3000 pojmenovaných entit 4 typů, 1 oznámení na email • Extrakce kontaktních informací z heterogenních webových stránek v medicínské doméně pro 3 jazyky • extrakce pojmenovaných entit 10 typů a seskupování do instancí 1 třídy • Extrakce popisů bicyklů z heterogenních webových stránek obchodů • 108 dokumentů, 4000 atributů 15 typů včetně 630 obrázků kol • Binární klasifikace obrázků na kolekci 1600 obrázků • Extrakce popisů počítačových monitorů a televizí z web. obchodů • 500 webových stránek s monitory, 60 s televizemi
DTD jazyka EOL • Součástí distribuce Ex: • ex/models/eol.dtd
Příklady evidence v EOL • Semináře: • Kontakty: • Bicykly:
Web 2.0, 3.0... • Web 2.0– existující druhá generace technologií a designu vysoce interaktivních webových stránek a aplikací, často využívající intenzívní komunikaci mezi klientem a serverem a rozsáhlé schopnosti prohlížeče. (volně dle Wikipedie) • pro extrakci z Web 2.0 stránek lze využít API prohlížeče a jeho reprezentaci dokumentu • extrakční ontologie nejsou v principu omezeny na webové stránky, lze je aplikovat na dokumenty bez jakékoliv struktury; na druhé straně je možné využít i jiného hierarchického formátovaní než HTML • Web 3.0– očekávaná další generace „sémantického webu“, kde stroje do určité míry „rozumějí“ jeho obsahu, např. jsou schopny odvozování nad prezentovanými fakty a mohou provádět operace pomocí sémanticky anotovaných webových služeb. • IE obecně je jednou z technik které by mohly „plnit“ potřebné báze znalostí