100 likes | 254 Views
TagCloud. Bc . Alojz Gomola. Obsah. Motiv ácia Návrh Implementácia Nasadenie v projekte PlaDeS Pokrytie slovníkových metód Porovnanie s metódou Qgramy Použitá literatúra. Motivácia. V ytvorenie zásuvného modulu do projektu PlaDeS. I mplemen ácia frekvenčn ých metód
E N D
TagCloud Bc. Alojz Gomola
Obsah • Motivácia • Návrh • Implementácia • Nasadenie v projekte PlaDeS • Pokrytie slovníkových metód • Porovnanie s metódou Qgramy • Použitá literatúra
Motivácia • Vytvoreniezásuvnéhomodulu do projektuPlaDeS. • Implemenáciafrekvenčnýchmetód • Vyhodnotenie podobnosti pomocou metódy TF/IDF. • FrekvenčnémetódysúpoužívanéajnagenerovanieTagCloud-u (Mraktagov). • Vizualizáciouzískanéhovýsledku.
Návrh • Vychádzal z daností projektu PlaDeS • CSharp/.NET platforma • Monolitické, neškálovateľné spracovanie dokumentov • Navrhnutý aplikačný vzor pre spracovanie • Lematizácia • Synonimizácia • Odstránenie stop slov • Spracovanie *.doc, *.pdf súborov • Navrhnuté frekvenčné metódy • TF-IDF [8] • TF [8] • IDF [8,9] • WF –IDF [9] • WF [9] • asd
Implementácia • Standalone aplikácia • Spracovanie dokumentov • Tokenizácia • Lematizácia • Synonimizácia • Vizualizácia pomocou TagCloud-u • Port do projektu Plades • Výpočet frekvenčného vektora dokumentu • Porovnávanie dokumentou metódou TF-IDF • Prepojenie na existujúce štruktúry a metódy porovnávania • Export výsledkov
Nasadenie v projekte PlaDeS 1/2 • Frekvenčná metóda na porovnávanie dokumentov • TF-IDF vektorová metóda • Normalizácia výsledkov • Obohatenie o vizualizáciu pomocou TagCloudu • Side-by-side view • Štatistika výskytu slova v dokumente • Pridanie škálovateľnej štruktúry • Slovníkové metódy • Uchovávanie korpusu mimo operačnej pamate • Zrýchlenie predspracovania PDF dokumentov
Nasadenie v projekte PlaDeS 2/2 • Príklad vizualizácie pomocou farebnej interaktívnej matice
Pokrytie slovníkových metód • Celkovo bolo spracovaných 978 774 slov v 79dokumentoch • Z toho bolo 896 144významovýchslov. • Z toho bolo 779 394slovlematizovatelných. • Z toho bolo 35 863slovsynonimizovateľných. • Relatívnepokrytielematizácie: 86,97 % • Absolútnepokrytielematizácie:76,63 % • Relatívnepokrytiesynonimizácie:4,57% • Absolútnepokrytiesynonimizácie: 3,66%
Použitá literatúra [1] ItextSharp - PrepisITextkniznice (OpenSource, Java) pre prostredie C# a platformu .NET [2] AbiWord - Opensourcenastrojnaeditáciu a spracovaniedokumentov MS office Word (*.doc) [3] Regular Expression Classes C# .NET MSDN [4] Stop slová z portálu SEO-SERVIS.CZ (Modifikovanáverzia z projektu Plades) [5] GARABIK, R.: Slovak morphology analyzer based on Levenshtein edit operations. Bratislava: JÚLŠ, 2006. [6] BERNSTEIN, D.J.: CDB File format. [7] OpenThesaurus-SK - OtvorenýSlovenskýSynonymickýSlovník [8] TF-IDF (Wikipedia) [9] Scoring, term weighting and the vector space model (IR Stanford) [10] Word Cloud (Tag Cloud) Generator Control for .NET Windows.Forms in C#