180 likes | 369 Views
Text Mining. Michal Holub. 10th PeWe Onto žúr, 2011. FIIT STU. Motivácia. textové dáta na Webe potreba jednotnej reprezentácie. Dolovanie v texte. spracovanie textu vyvorenie modelu dokumentov porovnávanie zhlukovanie, klasifikácia odporúčanie extrakcia informácií.
E N D
Text Mining Michal Holub 10th PeWe Ontožúr, 2011 FIIT STU
Motivácia • textové dáta na Webe • potreba jednotnej reprezentácie 10th PeWe Ontožúr
Dolovanie v texte • spracovanie textu • vyvorenie modelu dokumentov • porovnávanie • zhlukovanie, klasifikácia • odporúčanie • extrakcia informácií 10th PeWe Ontožúr
Hlavné kroky spracovania • prevod dát na text • tokenizácia • odstránenie stop slov • stemming a lematizácia • vytvorenie modelu dokumentu 10th PeWe Ontožúr
Prevod na text • DOC, PDF ... TXT • segmentácia HTML • Metall Readabilitywebová služba • http://peweproxy.fiit.stuba.sk/metall • hlavná časť stránky (bez menu, reklám) • štatisticky – počet slov, viet, interpunkcia, čiarky, atď. • regulárne výrazy • strojové učenie na príkladoch 10th PeWe Ontožúr
Tokenizácia • Garabík et al., 2004 • token je arbitrárna jednotka textu • akýkoľvek reťazec znakov medzi dvoma medzerami • aj znaky interpunkcie • text = tokeny a medzery • rozdelenie textu na tokeny • prakticky – oddeľovače sú všetky ne-písmená • získame množinu termov • pomlčky? úvodzovky? ... 10th PeWe Ontožúr
Gramáž • n-tice slov • spolu sa vyskytujúce slová • 2-gramy • 3-gramy • 4-gramy • n-gramy • ‘Kráľ drozdia brada’ vs. ‘Kráľ’ – ‘drozd’ – ‘brada’ 10th PeWe Ontožúr
Stop slová • slová bez sémantického významu • predložky, spojky, častice, zámená • krátke a dlhé slová, ktoré sa často vyskytujú • doménovo závislé • PeWe – web, personalizácia • právnici – zákon • slovník pre daný jazyk • N najpočetnejších slov v kolekcii dokumentov 10th PeWe Ontožúr
Lematizácia a stemming • prevod slov na spoločný tvar • v aute, autom, autá auto • lematizácia – prevod na základný tvar (v slovníku) • je platné slovo • ministrovi minister • stemming – prevod na koreň slova • nemusí byť platné slovo • ministrovi minist 10th PeWe Ontožúr
Lematizácia • pomocou slovníka • nefunguje pre slová, ktoré v slovníku nie sú • mená osôb, hudobných skupín, nové hovorové slová • významovo rozličné slová • pier – lema môže byť „pero“ aj „pera“ • štatistické algoritmy • veľka množina dokumentov 10th PeWe Ontožúr
Stemming • slovník • dá sa aj algoritmicky • odstránenie predpôn a prípon • Lovinsovej algoritmus (1968) • jeden prechod, odstránenie najdlhšej prípony, AJ • upraví stem v prípade potreby (zdvojené písmeno, ...) • Porterov algoritmus (1980) • iteratívne odstraňovanie prípon podľa pravidiel • štandard pre AJ 10th PeWe Ontožúr
Reprezentácia dokumentu • vrecezemiakov • bag of words slov 10th PeWe Ontožúr
Reprezentácia dokumentu • vektor termov • každý term má svoju váhu • TF – počet výskytov termu v dokumente / všetky termy • slová však majú rôznu dôležitosť • DF – počet dokumentov, v ktorých sa term vyskytuje • IDF – inverzná DF • idft = log (N / dft) N – počet dokumentov • čím menšia DF, tým významnejšie slovo • TF-IDF – bežne používaná, = tft * idft 10th PeWe Ontožúr
Podobnosť dokumentov • kosínusová podobnosť • cos uhla medzi vektormi • čím menší uhol, tým sú dokumenty podobnejšie • d – dokument • w1i – váha termu i v dokumente d1 (0 – term nie je) 10th PeWe Ontožúr
Kosínusová podobnosť 10th PeWe Ontožúr
Podobnosť dokumentov • euklidovská vzdialenosť • manhattan vzdialenosť • L1 podobnosť • canberra vzdialenosť • Chebyshev vzdialenosť 10th PeWe Ontožúr
Úlohy • Počet rôznych slov v dokumente • Počet viet v dokumente • Najpočetnejšie slovo v dokumente • Najpočetnejšie stop slovo • Najpočetnejšie slovo v kolekcii 10th PeWe Ontožúr
Úlohy • Najpočetnejšie slovné spojenie • 2, 3, 4-gramy • Najviac podobné abstrakty • Najmenej podobné abstrakty 10th PeWe Ontožúr