130 likes | 247 Views
21. 11. 2013, Brno Bc. Jiří Krupník. Automatizace generování stopslov. Ústav informatiky. PEFnet. Projekt. IGA 4/2013 Analýza vlivu předzpracování textových dokumentů na výsledky úloh text mining. PEFnet. Úvod. Text mining Předzpracování dat Stopslova (stopwords) Obecné
E N D
21. 11. 2013, Brno Bc. Jiří Krupník Automatizace generování stopslov Ústav informatiky
PEFnet Projekt • IGA 4/2013 Analýza vlivu předzpracování textových dokumentů na výsledky úloh text mining
PEFnet Úvod • Text mining • Předzpracování dat • Stopslova (stopwords) • Obecné • Doménově orientované • Algoritmy feature selection • Informační významnost
PEFnet Cíl • Implementace metod automatického generování stopslov • Provedení experimentů na rozsáhlých textových kolekcích
PEFnet Metody ‒ princip • Ohodnocení všech termů (slov) • Seřazení termů dle ohodnocení • Aplikace prahu či jiné podmínky
PEFnet Metody ‒ proměnné • A – počet dokumentů v kategorii obsahující term. • B – počet dokumentů, které nejsou v kategorii a obsahují term. • C – počet dokumentů v kategorii neobsahující term. • D – počet dokumentů, které nejsou v kategorii a neobsahují term.
PEFnet Metody ‒ implementace • Odds Ratio (ODDR) • Information Gain (IG) • Mutual Information (MI) • F-measure Feature Ranking (FFR) • The Chí Statistic (CHI) • Ng-Goh-Low (NGL) • Galavotti-Sebastiani-Simi (GSS)
PEFnet Vstupy • Doména hotelových recenzí • C\tTEXT\n • Příklad: _N SHOWER WATER NOT HOT ONLY JUST WARM.
PEFnet Reprezentace termu
PEFnet Výsledky ‒ seznamy stopslov EN
PEFnet Výsledky ‒ seznamy stopslov CZ
PEFnet Závěr • Implementace metod v Perlu • Ověřit vliv extrakce na výsledky úloh
PEFnet Děkuji za pozornost