1 / 9

Vyhľadávanie zhlukov PDF a Word dokumentov s podobnou témou na pevnom disku

Bc. Juraj Ďurech. Vyhľadávanie zhlukov PDF a Word dokumentov s podobnou témou na pevnom disku. Problém, motivácia. vytvorenie aplikácie na vyhľadávanie skupín pdf a doc dokumentov s podobnou témou na pevnom disku na základe kľúčových slov

milica
Download Presentation

Vyhľadávanie zhlukov PDF a Word dokumentov s podobnou témou na pevnom disku

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bc. Juraj Ďurech Vyhľadávanie zhlukov PDF a Word dokumentov s podobnou témou na pevnom disku

  2. Problém, motivácia • vytvorenie aplikácie na vyhľadávanie skupín pdf a doc dokumentov • s podobnou témou • na pevnom disku • na základe kľúčových slov • súčasné riešenia vyhľadávajú iba jednotlivé dokumenty

  3. Podobné riešenia • Google Desktop • Windows Search • Copernicus Desktop Search

  4. Riešenie • Java + Apache POI + Colt + externý stemmer • zhlukovanie iba doc dokumentov • spracovanie dokumentov • interpunkcia • tokenizácia • slovenské stop slová • slovenský stemming • normalizované váhovanie

  5. Algoritmus • slovník + váhovaný slovník • PLSA model = 3 matice • funkcia vierohodnosti • EM algoritmus (do 10 cyklov) • možnosť priradiť dokument do zhluku aj keď nie všetky dokumenty prešli EM algoritmom

  6. Problémy • Ako rozlíšiť logické časti dokumentu? • špecifická doména (veľký počet slov) • náhodná inicializácia ovplyvňuje výsledok • „citlivé“ spracovanie dokumentov

  7. Softvér

  8. Vyhodnotenie • Ako vyhodnotiť, keď aplikácia dáva „náhodné“ výsledky? • použitie iných zhlukovacích algoritmov ešte nevhodnejšie (merať kvalitu zhlukovania?) • prekonzultovať iné ako ručné prístupy

  9. Ďakujem Vám za pozornosť

More Related