220 likes | 411 Views
Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka. Karol Furdík, Peter Bednár. Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/. Obsah prezentácie. Motivácia a hlavné ciele
E N D
Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka Karol Furdík, Peter Bednár Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/
Obsah prezentácie Motivácia a hlavné ciele Architektúra Podporované úlohy dolovania v textoch (Text Mining) • Analýza dokumentov • Tvorba TM modelu pre kategorizáciu textov • Tvorba TM modelu pre zhlukovanie dokumentov Príklady použitia - aplikácie Plány do budúcnosti
Motivácia a hlavné ciele (1) Požiadavky kladené na systém / platformu: • nástroje na predspracovanie (potenciálne) veľkých kolekcií textových dokumentov, • narábanie s rôznymi textovými formátmi (voľný text, HTML, XML,...) a jazykmi, • Indexácia a vyhľadávanie informácií v týchto kolekciách, • Rozhranie pre znalostné modely (napr. ontológie). Existujúce systémy: • indexácia a vyhľadávanie (Lucene, EGOTHOR), NLP (GATE, JavaNLP), KDD nástroje (Weka, KDD Package), ontológie (KAON), • príliš úzko zamerané na tú-ktorú podúlohu, preto nevhodné na dolovanie v textoch a sémantické vyhľadávanie.
Motivácia a hlavné ciele (2) Jbowl - Open Source knižnica v jazyku Java, ponúkajúca funkcie na podporu: • inteligentného vyhľadávania informácií, sumarizácie, extrakcie informácií z textov, • dolovania znalostí v textoch, zhlukovania, kategorizácie, klasifikačných úloh. Hlavné charakteristiky: • rozšíriteľná modulárna architektúra, • platforma na predspracovanie (vrátane NLP metód) a indexáciu rozsiahlych textových kolekcií, • funkcie na vytváranie a vyhodnocovanie riadených aj neriadených modelov pre dolovanie v textoch.
API TME MOR Architektúra: komponenty Architektúra Jbowl je rovnaká ako štandard Java Data Mining API (JSR 73):http://www.jcp.org/en/jsr/detail?id=73 Rozhranie (API): • triedy a rozhrania pre prístup k službám TME. Jadro (TME, Text Mining Engine): • infraštruktúra TM služieb, • riadenie TM úloh (napr. analýza dokumentov, tvorba a testovanie modelu, aplikovanie modelu na nové údaje, štatistické výpočty, import a export údajov z/do MOR,...). Údaje (MOR, Mining Object Repository): • perzistentné uloženie TM objektov.
Architektúra: funkčné moduly documents XML Lucene index Thesaurus analysis Tokenization Sentence chunking POS tagging NP chunking data Statistics TF IDF Term selection models categorization clustering keyword extraction/ summarization information extraction utils Collections Matrixes BLAS Neimplementované, alebo čiastočne implementované
Analýza dokumentov (1) Objektová reprezentácia dokumentu zahŕňa: • textový obsah delený na sekcie (kapitoly, paragrafy), • metadáta (id, name, dataset, a pod.), • zoznam kategórií popisujúcich obsah. <document id="12" name="Reuters-21578-12“ dataset="ModApte-train"> <category>topics.commodity.exchange</category> <category>topics.wheat-commodity</category> <title> OHIO MATTRESS MAY HAVE LOWER 1ST QTR NET </title> <text> Ohio Mattress Co said its first quarter, ending February 28, profits may be below the 2.4 mln dlrs, earned in the first quarter of fiscal 1986. ... </text> </document>
Analýza dokumentov (2) Delenie textu na značky - tokens: • tokens sú slová (reťazce alfanumerických znakov), číslice, diakritické znaky. Značkovanie (tokenization) sa vykonáva pomocou značkovacích filtrov (token filters). Filtre slúžia na: • zmenu textu niektorej značky (na malé písmená, stemming), • pridanie informácie k značke (POS tagging, WSD), • odstránenie niektorých značiek (stop-words), • spájanie značiek (frázy).
Príklad: 1) značkovanie tokenizer POS stemming gazetteer stop words Ohio Mattress Co said its first quarter , ending February 28 profits may be below the 2.4 mln dlrs earned in the first quarter of fiscal 1986 .
Príklad : 2) slovné druhy tokenizer POS stemming gazetteer stop words Ohio Mattress Co said its first quarter , ending February 28 profits may be below the 2.4 mln dlrs earned in the first quarter of fiscal 1986 . verbs nouns adjectives adverbs
Príklad : 3) stemming tokenizer POS stemming gazetteer stop words Ohio Mattress Co said its first quarter , ending February 28 profits may be below the 2.4 mln dlrs earned in the first quarter of fiscal 1986 .
Príklad : 4) termíny, frázy tokenizer POS stemming gazetteer stop words Ohio Mattress Co say its first quarter , end February 28 profit may be below the 2.4 mln dlrs earn in the first quarter of fiscal 1986 .
Príklad : 5) stop-words tokenizer POS stemming gazetteer stop words Ohio Mattress Co say its first quarter , end February 28 profit may be below the 2.4 mln dlrs earn in the first quarter of fiscal 1986 .
Vektorová reprezentácia Dokument di je reprezentovaný ako vektor v n-rozmernom príznakovom priestore (n je počet príznakov, termov - terms) Príznaky reprezentujú napr.: • slová, korene slov • frázy, n-gramy • významy slov (WordNet synsety) Hodnoty “váh” vektorov: • binárne • frekvencia termov • tf-idf váhovanie: t1 t2 t3 t4 t5 ... tn d1 d2 d3 ... dm
Kategorizácia textov Klasifikácia dokumentov do niektorých z preddefinovaných kategórií. • Aplikácie: • indexovanie pre vyhľadávacie systémy (information retrieval): • kontrolovaný slovník - tezaurus, • anotácia dokumentov (napr. pomocou pojmov ontológie), • filtrovanie textov: • filtrovanie spam / junk mailov. • Manuálna kategorizácia je časovo náročná a drahá. • Kontrolované učenie (vyžaduje sa trénovacia množina vopred zaradených dokumentov).
Algoritmy klasifikácie Implementované v knižnici Jbowl: • Jednoduché porovnávanie termov • Support Vector Machine - lineárna klasifikácia • k-Nearest neighbors • Rozhodovacie stromy - rôzne kombinácie orezávania a rastu • Perceptron • Bayesovský klasifikátor (binomiálny a multinomiálny) • Winnow • Boosting - metóda na zvýšenie presnosti klasifikátorov
Zhlukovanie dokumentov Úloha: nájsť v kolekcii zhluky dokumentov s podobným obsahom. Nekontrolované učenie (trénovacia množina dokumentov nie je potrebná). Aplikácie: • organizovanie dokumentov v digitálnych knižniciach, • automatická tvorba ontológií. Metódy a algoritmy (implementované v Jbowl): • k-Means, • SOM (Self organizing maps) • GHSOM (Growing hierarchical SOM)
Aplikácie eGovernment: Projekt Webocracy (http://www.webocrat.sk), eLearning: Projekt KP-Lab (http://www.kp-lab.org), GRID: GridMiner - objavovanie znalostí v heterogénnych a distribuovaných priestoroch údajov. Aplikačná oblasť: medicínske texty. Riešitelia: TU Viedeň, TU Košice (http://www.gridminer.org), Vyhľadávanie informácií s použitím metód zhlukovania, Extrakcia informácií pomocou metód NLP, vrátane morfologickej a syntaktickej analýzy slovenčiny, viaceré diplomové a dizertačné práce na TU Košice.
Aplikácie: projekt Webocracy Web Technologies Supporting Direct Participation in Democratic Processes, IST-1999-20364 http://www.webocrat.sk Aplikačná oblasť: eGovernment. ontológia text mining inteligentné vyhľadávanie vektorová reprezentácia analýza dokumentov indexácia full-text vyhľadávanie Jbowl knižnica Špecifická funkcionalita systému Webocrat
Aplikácie: projekt KP-Lab Knowledge Practices Laboratory, IST-2006-27490 http://www.kp-lab.org Aplikačná oblasť: eLearning.
Budúce úlohy Dokumentácia: dokončiť a publikovať dokumentáciu, vrátane príkladov použitia / implementácie pre typové úlohy, WSD modul: navrhnúť a implementovať modul pre dezambiguáciu, zjednoznačnenie určenia slovných tvarov, Rozšírenie slovníkov, a to 1) pridaním ďalších atribútov (sémantických a lexikálnych kategórií), 2) doplnením slovníkových hesiel (napr. zo špecializovaných korpusov), Rozhranie na OWL ontológie, konverzia formátov RDF/OWL/WSMO. Rozvoj komunity: podporovať a usmerňovať aktivity pri vývoji nových verzií knižnice Jbowl; rozširovať možnosti aplikovania v rôznych výskumných oblastiach.
Ďakujem Vámza pozornosť. Web:http://sourceforge.net/projects/jbowl/ Licencia: GNU LESSER GENERAL PUBLIC LICENSE Autor: Peter Bednár, Peter.Bednar@tuke.sk