1 / 30

Stanislav Kunt 9 . 4 . 2013

Stanislav Kunt 9 . 4 . 2013. Co je text mining ?. Mnoho různých definic: Vědecká disciplína na pomezí dolování z dat, strojového učení, statistiky a zpracování přirozeného jazyka Proces získávání znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech

wynn
Download Presentation

Stanislav Kunt 9 . 4 . 2013

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Stanislav Kunt 9. 4. 2013

  2. Co je text mining? • Mnoho různých definic: • Vědecká disciplína na pomezí dolování z dat, strojového učení, statistiky a zpracování přirozeného jazyka • Proces získávání znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech • Netriviální extrakce implicitních, předem neznámých a potenciálně užitečných informací z velkého množství textových dat

  3. Co je text mining? • Společné znaky: • Zpracovává se text v přirozeném jazyce • Pro velké kolekce textů – není efektivní je pročítat • Snaha získat informace z textu, automatizovaně zpracovat informace v textu nebo odvodit novou informaci na základě textu • Cíle: • Studium přirozeného jazyka (korpusy) • Jak historický tak současný (tvorba slovníků) • Získání informace z textu, o textu

  4. Co je nestrukturovaná informace? Nestrukturovaná informace Strukturovaná informace Jméno: Alena Příjmení: Novotná Datum narození: 12. 01. 1985 Studium: Klasické gymnázium v Brně • Jmenuji se Alena Novotná, narodila jsem se 12. ledna 1985. Bydlím v Praze. Vystudovala jsem Klasické gymnázium v Brně.

  5. Vymezení text miningu Využívá metody Využívá metody

  6. Vymezení text miningu • Samostatná aplikace • Zasahuje do NLP i DM • Součást většího celku • Text mining předzpracovává a převádí nestrukturovaný text na strukturovaná data pro další zpracování data miningem

  7. Úlohy text miningu • InformationRetrieval (IR) • DocumentClassification • DocumentClustering • InformationExtraction • NamedEntitityRecognition (NER) • QuestionAnswering (QA) • Text Summarization • LanguageIdentification

  8. InformationRetrieval (IR) • Nejstarší disciplína • Cíl: Najít v kolekci dokumentů ty dokumenty, které obsahují požadovanou informaci • Typy: • Nehodnocené • Hodnocené (ranked)

  9. InformationRetrieval (IR) Nehodnocené Hodnocené (ranked) Př. Ojetý levný Mercedes Výsledek: míra shody Dotaz v přirozeném jazyce Výpočet podobnosti dokumentu – např. kosinovou metrikou • Př. Auto AND levné AND NOT Trabant • Výsledek:vyhověl  nevyhověl • Dotaz obsahuje slova, která musí a naopak nesmí dokument obsahovat

  10. Kosinová metrika podobnosti • Mám 2 texty: • Dokument – dlouhý text • Dotaz – krátký text • Sestavím společný slovník z obou textů • Sestavím vektory pro oba texty • Délka – počet slov ve slovníku • Hodnota na pozici n – počet výskytů n-tého slova ze slovníku v dokumentu • Spočítám úhel mezi vektory  malý = podobné

  11. InformationRetrieval (IR) • Další úkoly: • Vytváření indexů • Dekódování různých formátů (PDF, Word, Open Office, …)

  12. DocumentClassification • Cíl: Zařadit dokument do jedné (1zN) nebo více (MzN) předdefinovaných skupin Krimi Auto-moto Kultura Z domova

  13. DocumentClassification • Supervizovaná úloha (s učitelem) • Část dokumentů zatřídíme ručně • Na zatříděných dokumentech natrénujeme rozhodovací strom, neuronovou síť, … • Další dokumenty třídí rozhodovací strom/neuronová síť samostatně • Nejčastěji řešená úloha – mnoho aplikací • Rozpoznávání jazyka • Detekce spamu • Kategorizace otevřených odpovědí

  14. DocumentClustering • Cíl: Seskupit navzájem podobné dokumenty

  15. DocumentClustering • Nesupervizovaná úloha • Založeno na podobnosti dokumentů • Velká podobnost dokumentů uvnitř klastru • Malá podobnost dokumentů mezi klastry

  16. InformationExtraction • Cíl: Extrakce informace z textu dokumentu • Jmenuji se Alena Novotná, narodila jsem se 12. ledna 1985. Alena Novotná • Jméno: • Příjmení: • Datum narození: 12. ledna 1985

  17. InformationExtraction • Netřídí ani nehledá dokumenty • Hledá v textu vlastnosti určitých objektů • Výsledky se ukládají např. do datové matice (tabulka) • Pro informace mající charakteristický formát mohou být využity regulární výrazy

  18. Regulární výrazy • Regularexpression, regexp či regex • Speciální řetězec znaků, který představuje určitý vzor (masku) pro textové řetězce. • Využití: • Zjištění zda daný text vyhovuje regulárnímu výrazu • Nalezení všech shod regulárního výrazu v textu • Extrakce shodujícího se textu • Záměna shodujícího se textu za jiný text • Př. [a-zA-Z0-9._-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}

  19. NamedEntity Recongition • Rozpoznávání jmenných entit • Geografická jména, křestní jména, chemické sloučeniny, názvy chorob, … • Většinou založeno na slovnících • Výstupem: • Seznam nalezených entit • Zvýraznění v textu, provázání na informace o entitě

  20. Další úlohy • Text Summarization • Výtah z textu • LanguageIdentification • Identifikace jazyka textu • Může být řešena DocumentClassification • QuestionAnswering • Odpovědět na otázku položenou v přirozeném jazyce • Zdroj dat: InformationExtraction • IBM Watson v soutěži Jeopardy!

  21. Reprezentace obsahu dokumentu • Jakým způsobem zachytit textový obsah dokumentu? • Členěný (strukturovaný, formátovaný) text • Prostý text • n-gramy • Řetěz tokenů • Bag-of-words

  22. Členěný text • Většina zdrojových textů, které chceme TM zpracovat • Nezpracovává se přímo  převod na jednodušší reprezentace • Členění lze využít – zpracování pouze nadpisů, perexů, … Zdroj: novinky.cz

  23. Prostý text • Po načtení a dekódování formátu • Lze zpracovat regulárními výrazy – informationextraction • Hledání a zvýraznění entit – named entity recognition Letos v lednu ohlásil muž na policii, že mu ve městě ukradli auto. Policie po něm zahájila pátrání. Zvrat ve vyšetřování nastal koncem března. Policisté zjistili, že automobil je zakopaný v místní zahrádkářské osadě na pozemku muže, který krádež ohlásil. Muž se následně přiznal, že tímto způsobem chtěl získat v přepočtu 250 tisíc českých korun a následně chtěl automobil rozprodat na součástky. Vůz zakoupil i pojistil v České republice. BMW měl zaevidováno na jméno české příbuzné. Zdroj: novinky.cz

  24. N-gramy • N-tice po sobě jdoucích znaků • Jazykově nezávislé • Využití pro detekci jazyka • Př. Ema má maso. Bi-gramy ma em a_ _m má á_ _m ma o. as so

  25. Řetěz tokenů • Po tokenizaci (lexikální analýze) • Rozdělení prostého textu na posloupnost tokenů – slov (sousloví, vět) • Token – skupina po sobě jdoucích znaků, nese základní sémantickou informaci • Tokeny mohou mít přiřazeny atributy (NLP) • Zpracování tokenů • Filtrace (Stop words list) • Seznam synonym • Stemming, Lemmatizace • Př. • … • břeh je objímal kol a kol; • ... • Tokeny: • břeh • je • objímal • kol • a • kol

  26. Bag-of-words • Pytel slov • Tokeny nemají dané pořadí – libovolná permutace • Často se uchovává ve formě tabulky: • token | počet výskytů • Př. … břeh je objímal kol a kol; ... • Výsledek:

  27. Reprezentace obsahu skupiny dokumentů • Výchozí reprezentace jednotlivých dokumentů: bag-of-words • Document-term matrix • Term frequency list

  28. Document-term matrix Tokeny Dokumenty Term frequency Kolikrát se tento token vyskytuje v tomto dokumentu Term frequency-inverse documentfrequency Součin TF a IDF  míra důležitosti tokenu

  29. Token frequency list Váhy Tokeny Term frequency Kolikrát se tento token vyskytuje v tomto dokumentu Documentfrequency Počet dokumentů, ve kterých se tento token vyskytuje Inverse documentfrequency Logaritmus podílu počtu dokumentů a DF

  30. Děkuji za pozornost

More Related