80 likes | 239 Views
Vkladanie diakritiky s využitím štatistickej analýzy textu. Matej Sabo Vyh ľadávanie informácií 2010/2011. Opis problému. Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov - > „naučenie sa ako vkladať diakritiku“.
E N D
Vkladanie diakritiky s využitím štatistickej analýzy textu Matej Sabo Vyhľadávanie informácií 2010/2011
Opis problému • Práca s databázou • Vstup – text bez diakritiky • Výstup – text s diakritikou • Využitie štatistickej analýzy textov -> „naučenie sa ako vkladať diakritiku“ Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavaniainformacii z internetu (informationretrieval). Dozvedia sa akesuzakladne modely pre vyhladavanie a ziskavanieinformacii, ako sa dahodnotituspesnost, akesu techniky indexovania a vyhladavania ako... Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (informationretrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako
Motivácia • Užitočnosť programu (šetrenie času, námahy) • Použitie v praxi • Forma experimentu
Popis dát • Dve druhy databáz: • Zoznam všetkých slov (dva txt súbory o veľkosti cca 11,5 MB). Tvar databázy: • Slovo bez diakritiky a alternatívy s diakritikou • Napr. spat spať späť špať špát • Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy: • Názov súbora – [analyzované_slovo].txt. • Obsah súbora – alternatívy písania diakritiky slova nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch
Implementácia • Java (Eclipse) -> multiplatformovosť • Prevažne práca so súbormi a string-ami • Aplikácia s GUI (využitie awt, swing) • Jednoduché ovládanie • Kód – 8 tried v 3 balíkoch: • main – trieda Main • gui – trieda používateľského rozhrania • logic – ostatných 6 tried s hlavnou logikou programu
Zhodnotenie • Dobrá použiteľnosť programu • Vysoká úspešnosť v testovaní: • Testovanie na článkoch Sme a texte diplomovej práce • Úspešnosť správneho prekladu slova podľa databázy – 97,5% • Ďalšie možnosti zlepšenia • Nevýhody: • Potreba databáz (20 MB) • Dlhšie trvanie pre väčšie súbory (asi minúta pri 50 stranách)
Ďakujem za pozornosť Matej Sabo