90 likes | 220 Views
Bc. Juraj Ďurech. Vyhľadávanie zhlukov PDF a Word dokumentov s podobnou témou na pevnom disku. Problém, motivácia. vytvorenie aplikácie na vyhľadávanie skupín pdf a doc dokumentov s podobnou témou na pevnom disku na základe kľúčových slov
E N D
Bc. Juraj Ďurech Vyhľadávanie zhlukov PDF a Word dokumentov s podobnou témou na pevnom disku
Problém, motivácia • vytvorenie aplikácie na vyhľadávanie skupín pdf a doc dokumentov • s podobnou témou • na pevnom disku • na základe kľúčových slov • súčasné riešenia vyhľadávajú iba jednotlivé dokumenty
Podobné riešenia • Google Desktop • Windows Search • Copernicus Desktop Search
Riešenie • Java + Apache POI + Colt + externý stemmer • zhlukovanie iba doc dokumentov • spracovanie dokumentov • interpunkcia • tokenizácia • slovenské stop slová • slovenský stemming • normalizované váhovanie
Algoritmus • slovník + váhovaný slovník • PLSA model = 3 matice • funkcia vierohodnosti • EM algoritmus (do 10 cyklov) • možnosť priradiť dokument do zhluku aj keď nie všetky dokumenty prešli EM algoritmom
Problémy • Ako rozlíšiť logické časti dokumentu? • špecifická doména (veľký počet slov) • náhodná inicializácia ovplyvňuje výsledok • „citlivé“ spracovanie dokumentov
Vyhodnotenie • Ako vyhodnotiť, keď aplikácia dáva „náhodné“ výsledky? • použitie iných zhlukovacích algoritmov ešte nevhodnejšie (merať kvalitu zhlukovania?) • prekonzultovať iné ako ručné prístupy