1 / 22

Projekt RAINBOW v í cecestn á extrakce informac í z webu

Projekt RAINBOW v í cecestn á extrakce informac í z webu. Vojtěch Svátek S eminář KEG, 6.11.2002. Osnova. Historie (a prehistorie) projektu Popis současného stavu SWOT analýza projektu Možné směry do budoucna. Historie a prehistorie. Prehistorie

Download Presentation

Projekt RAINBOW v í cecestn á extrakce informac í z webu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projekt RAINBOWvícecestná extrakce informací z webu Vojtěch Svátek Seminář KEG, 6.11.2002

  2. Osnova • Historie (a prehistorie) projektu • Popis současného stavu • SWOT analýza projektu • Možné směry do budoucna

  3. Historie a prehistorie • Prehistorie • studie o inteligentních systémech a Internetu (1998) • metavyhledávací systém VŠEvěd (1998-1999) • experimenty s analýzou URL (1999-2000) • Historie • diskuse o vícecestné analýze WWW (1999-2001) • implementace infrastruktury (2000-2002) • “jednoúlohová” aplikace M. Vacury (2000-2002) • experimenty s lingvistickou analýzou (2001 -2002)

  4. Inteligentní systémy a internet • P. Berka, jaro 1998 • Studie přístupná na http://lisp.vse.cz/~berka/ai-inet.htm • vyhledávací a metavyhledávací systémy • navigační asistenti • … • Východisko pro vlastní vývoj...

  5. Metavyhledávací systém VŠEvěd • Webová část realizována skripty v PERLu (M. Sochorová, 1998) • Předání dotazu více vyhledávačům • Extrakce výsledků (“screen-scraping”) • “Znalostní” sloučení a přeuspořádání výsledků realizováno v CLIPS (P. Berka, 1999) • uspořádání podle “relevance” • seskupení podle kategorií(ne tématických, ale “typů” stránek!) • doplnění z vlastní báze “případů”

  6. VŠEvěd - vstupní obrazovka

  7. VŠEvěd - výstupní obrazovka

  8. Analýza URL • Původně vyvinuta pro seskupování ve VŠEvědu, aplikace v CLIPS (P. Berka) • Sleduje výskyt řetězců v jednotlivých částech URL (zvl. “directory” a “filename”) • Frekvenční analýza řetězců v rozsáhlém souboru URL; rozpoznávání oddělovačů (V. Svátek) • Desambiguace řetězců typu “art”, “pub”..., pomocí dalších informací z vyhledávače (induktivní logické programování - M. Kavalec)

  9. Pravidla pro analýzu URL (defrule type-info-o-firmach-2 (declare (salience 500)) ?f <- (html (type1 "") (path "/") (filewords $?wpred ?w $?wpo)) (test (lexemep ?w)) (or (test (numberp (str-index "home" ?w))) (test (numberp (str-index "main" ?w))) (test (eq "welcome" ?w)) (test (numberp (str-index "intro" ?w))) (test (numberp (str-index "info" ?w))) (test (numberp (str-index "site" ?w))) (test (numberp (str-index "about" ?w))) (test (numberp (str-index "vitej" ?w))) ) => (modify ?f (type1 "Informace o firmach a institucich")))

  10. Rozšíření záběru... • Analýza URL a výstřižku někdy překvapivě úspěšná, má však vždy meze... • Analýza plného obsahu stránek zajímavější, ovšem pomalejší přechod od metavyhledávacího přístupu k off-line analýze, zvl. celých websites! • Zpočátku velmi “bezbřehé ” úvahy...

  11. RAINBOW - hlavní principy • Oddělená analýza různých typů dat • URL: řetězce v jednoduché lineární struktuře • HTML: stromová struktura elementů + atributy • metadata (META, RDF): slova a fráze v částečně formalizované struktuře • volný text: struktura vět přirozeného jazyka • odkazová struktura: orientovaný graf • obrázky: bitové mapy (histogramy) atd.

  12. RAINBOW - hlavní principy (2) • Předávání zpráv mezi nezávislými moduly • technologie webových služeb (WSDL,SOAP) • model “objekt-třída-obsah” • Základní operace: • vyhledání objektu • určení třídy objektu • extrakce textového obsahu objektu

  13. RAINBOW - scénář použití • Extrakce “implicitních metadat” o firmě a její nabídce zboží/služeb: • Analýza URL a topologie navede na stránku s cílovými informacemi • Analýza HTML, metadat a volného textu detekuje a oklasifikuje cílové informace • Efektivní práce předpokládá propojení s primárním vyhledávačem (podle klíčových slov)

  14. Implementace (jaro 2002) • Stahování, konverze, ukládání a poskytování zdrojových dat (J. Kosek) • Komunikační infrastruktura (J. Kosek) • Analýza volného textu - extrakce vět (M. Kavalec) • Extrakce obsahu META tagů (P. Kupka) • Vizualizace výsledků (J. Kosek)

  15. Vizualizace výsledků

  16. Další výstupy z projektu • Metoda učení “indikativních termínů” ve větě, využíváwebový adresář(M. Kavalec, V. Svátek) • Formální ontologie webových objektů (V. Svátek) • Soubor programů pro vícecestné rozpoznávání pornografie na WWW (M. Vacura) • Typologie zajímavých struktur v kódu HTML(J. Klemperer) • DP o možnostech analýzy topologie odkazů(M. Sajal)

  17. SWOT Analýza (S) • Problematika vnímána jako aktuální • využití redundance informací na WWW • možnost flexibilního vývoje z komponent • Získán široký přehled o souvisejícím výzkumu ve světě, navázány kontakty • Přiměřeně velký a vyvážený tým • znalostní inženýrství (ontologie, PSM, IE) • datové inženýrství (značkovací jazyky, webové technologie) • strojové učení a data mining

  18. SWOT Analýza (W) • Neexistuje (zatím) jednotící teorie • Reálně implementována jen velmi malá část • Chybí grantová podpora (?) • Chybí potenciální “zákazník”, otázka je, zda se v tuzemsku někdy najde... • většina problémů se asi dá s přijatelnou kvalitou řešit běžnými prostředky...

  19. SWOT Analýza (O) • Možnost vzniku mezinárodních publikací a slušně vypadajících disertací (a diplomek) • Aktivní zapojení do mezinárodních grantů včetně finančního přínosu

  20. SWOT Analýza (T) • Soubor nesystematických ad hoc řešení, tudíž bez vědeckého přínosu • Řešení “od zeleného stolu”, odtržené od reality • Řešení nekompatibilní s používanými standardy • Vývoj tak zdlouhavý, že se mezitím podoba internetu zásadně změní

  21. Navrhované další kroky • Vytvoření referenčního vzorku dat, učení a/nebo ověřování dílčích bází znalostí na nich • Slučování ontologií na podkladě referenčních dat • Popsání reálných scénářů extrakce informací pomocí abstraktního modelu • Využívání zkušeností a nástrojů nad XML/RDF • Propojení se “standardním” fulltextovým systémem (AmphorA, VŠB-TU Ostrava) • Vybudování solidní teorie pro část problematiky

  22. Další informace • “Oficiální” stránka projektu RAINBOWhttp://rainbow.vse.cz resp. http://nb.vse.cz/~svatek/rainbowvč. plných textů publikovaných článků • Diplomka J. Koskahttp://www.kosek.cz/diplomkavč. dokumentace k implementaci a návodu pro vývoj dalších komponent

More Related