300 likes | 479 Views
Stanislav Kunt 9 . 4 . 2013. Co je text mining ?. Mnoho různých definic: Vědecká disciplína na pomezí dolování z dat, strojového učení, statistiky a zpracování přirozeného jazyka Proces získávání znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech
E N D
Stanislav Kunt 9. 4. 2013
Co je text mining? • Mnoho různých definic: • Vědecká disciplína na pomezí dolování z dat, strojového učení, statistiky a zpracování přirozeného jazyka • Proces získávání znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech • Netriviální extrakce implicitních, předem neznámých a potenciálně užitečných informací z velkého množství textových dat
Co je text mining? • Společné znaky: • Zpracovává se text v přirozeném jazyce • Pro velké kolekce textů – není efektivní je pročítat • Snaha získat informace z textu, automatizovaně zpracovat informace v textu nebo odvodit novou informaci na základě textu • Cíle: • Studium přirozeného jazyka (korpusy) • Jak historický tak současný (tvorba slovníků) • Získání informace z textu, o textu
Co je nestrukturovaná informace? Nestrukturovaná informace Strukturovaná informace Jméno: Alena Příjmení: Novotná Datum narození: 12. 01. 1985 Studium: Klasické gymnázium v Brně • Jmenuji se Alena Novotná, narodila jsem se 12. ledna 1985. Bydlím v Praze. Vystudovala jsem Klasické gymnázium v Brně.
Vymezení text miningu Využívá metody Využívá metody
Vymezení text miningu • Samostatná aplikace • Zasahuje do NLP i DM • Součást většího celku • Text mining předzpracovává a převádí nestrukturovaný text na strukturovaná data pro další zpracování data miningem
Úlohy text miningu • InformationRetrieval (IR) • DocumentClassification • DocumentClustering • InformationExtraction • NamedEntitityRecognition (NER) • QuestionAnswering (QA) • Text Summarization • LanguageIdentification
InformationRetrieval (IR) • Nejstarší disciplína • Cíl: Najít v kolekci dokumentů ty dokumenty, které obsahují požadovanou informaci • Typy: • Nehodnocené • Hodnocené (ranked)
InformationRetrieval (IR) Nehodnocené Hodnocené (ranked) Př. Ojetý levný Mercedes Výsledek: míra shody Dotaz v přirozeném jazyce Výpočet podobnosti dokumentu – např. kosinovou metrikou • Př. Auto AND levné AND NOT Trabant • Výsledek:vyhověl nevyhověl • Dotaz obsahuje slova, která musí a naopak nesmí dokument obsahovat
Kosinová metrika podobnosti • Mám 2 texty: • Dokument – dlouhý text • Dotaz – krátký text • Sestavím společný slovník z obou textů • Sestavím vektory pro oba texty • Délka – počet slov ve slovníku • Hodnota na pozici n – počet výskytů n-tého slova ze slovníku v dokumentu • Spočítám úhel mezi vektory malý = podobné
InformationRetrieval (IR) • Další úkoly: • Vytváření indexů • Dekódování různých formátů (PDF, Word, Open Office, …)
DocumentClassification • Cíl: Zařadit dokument do jedné (1zN) nebo více (MzN) předdefinovaných skupin Krimi Auto-moto Kultura Z domova
DocumentClassification • Supervizovaná úloha (s učitelem) • Část dokumentů zatřídíme ručně • Na zatříděných dokumentech natrénujeme rozhodovací strom, neuronovou síť, … • Další dokumenty třídí rozhodovací strom/neuronová síť samostatně • Nejčastěji řešená úloha – mnoho aplikací • Rozpoznávání jazyka • Detekce spamu • Kategorizace otevřených odpovědí
DocumentClustering • Cíl: Seskupit navzájem podobné dokumenty
DocumentClustering • Nesupervizovaná úloha • Založeno na podobnosti dokumentů • Velká podobnost dokumentů uvnitř klastru • Malá podobnost dokumentů mezi klastry
InformationExtraction • Cíl: Extrakce informace z textu dokumentu • Jmenuji se Alena Novotná, narodila jsem se 12. ledna 1985. Alena Novotná • Jméno: • Příjmení: • Datum narození: 12. ledna 1985
InformationExtraction • Netřídí ani nehledá dokumenty • Hledá v textu vlastnosti určitých objektů • Výsledky se ukládají např. do datové matice (tabulka) • Pro informace mající charakteristický formát mohou být využity regulární výrazy
Regulární výrazy • Regularexpression, regexp či regex • Speciální řetězec znaků, který představuje určitý vzor (masku) pro textové řetězce. • Využití: • Zjištění zda daný text vyhovuje regulárnímu výrazu • Nalezení všech shod regulárního výrazu v textu • Extrakce shodujícího se textu • Záměna shodujícího se textu za jiný text • Př. [a-zA-Z0-9._-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}
NamedEntity Recongition • Rozpoznávání jmenných entit • Geografická jména, křestní jména, chemické sloučeniny, názvy chorob, … • Většinou založeno na slovnících • Výstupem: • Seznam nalezených entit • Zvýraznění v textu, provázání na informace o entitě
Další úlohy • Text Summarization • Výtah z textu • LanguageIdentification • Identifikace jazyka textu • Může být řešena DocumentClassification • QuestionAnswering • Odpovědět na otázku položenou v přirozeném jazyce • Zdroj dat: InformationExtraction • IBM Watson v soutěži Jeopardy!
Reprezentace obsahu dokumentu • Jakým způsobem zachytit textový obsah dokumentu? • Členěný (strukturovaný, formátovaný) text • Prostý text • n-gramy • Řetěz tokenů • Bag-of-words
Členěný text • Většina zdrojových textů, které chceme TM zpracovat • Nezpracovává se přímo převod na jednodušší reprezentace • Členění lze využít – zpracování pouze nadpisů, perexů, … Zdroj: novinky.cz
Prostý text • Po načtení a dekódování formátu • Lze zpracovat regulárními výrazy – informationextraction • Hledání a zvýraznění entit – named entity recognition Letos v lednu ohlásil muž na policii, že mu ve městě ukradli auto. Policie po něm zahájila pátrání. Zvrat ve vyšetřování nastal koncem března. Policisté zjistili, že automobil je zakopaný v místní zahrádkářské osadě na pozemku muže, který krádež ohlásil. Muž se následně přiznal, že tímto způsobem chtěl získat v přepočtu 250 tisíc českých korun a následně chtěl automobil rozprodat na součástky. Vůz zakoupil i pojistil v České republice. BMW měl zaevidováno na jméno české příbuzné. Zdroj: novinky.cz
N-gramy • N-tice po sobě jdoucích znaků • Jazykově nezávislé • Využití pro detekci jazyka • Př. Ema má maso. Bi-gramy ma em a_ _m má á_ _m ma o. as so
Řetěz tokenů • Po tokenizaci (lexikální analýze) • Rozdělení prostého textu na posloupnost tokenů – slov (sousloví, vět) • Token – skupina po sobě jdoucích znaků, nese základní sémantickou informaci • Tokeny mohou mít přiřazeny atributy (NLP) • Zpracování tokenů • Filtrace (Stop words list) • Seznam synonym • Stemming, Lemmatizace • Př. • … • břeh je objímal kol a kol; • ... • Tokeny: • břeh • je • objímal • kol • a • kol
Bag-of-words • Pytel slov • Tokeny nemají dané pořadí – libovolná permutace • Často se uchovává ve formě tabulky: • token | počet výskytů • Př. … břeh je objímal kol a kol; ... • Výsledek:
Reprezentace obsahu skupiny dokumentů • Výchozí reprezentace jednotlivých dokumentů: bag-of-words • Document-term matrix • Term frequency list
Document-term matrix Tokeny Dokumenty Term frequency Kolikrát se tento token vyskytuje v tomto dokumentu Term frequency-inverse documentfrequency Součin TF a IDF míra důležitosti tokenu
Token frequency list Váhy Tokeny Term frequency Kolikrát se tento token vyskytuje v tomto dokumentu Documentfrequency Počet dokumentů, ve kterých se tento token vyskytuje Inverse documentfrequency Logaritmus podílu počtu dokumentů a DF