Vkladanie diakritiky s využitím štatistickej analýzy textu

Vkladanie diakritiky s využitím štatistickej analýzy textu Matej Sabo Vyhľadávanie informácií 2010/2011

Opis problému • Práca s databázou • Vstup – text bez diakritiky • Výstup – text s diakritikou • Využitie štatistickej analýzy textov -> „naučenie sa ako vkladať diakritiku“ Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavaniainformacii z internetu (informationretrieval). Dozvedia sa akesuzakladne modely pre vyhladavanie a ziskavanieinformacii, ako sa dahodnotituspesnost, akesu techniky indexovania a vyhladavania ako... Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (informationretrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako

Motivácia • Užitočnosť programu (šetrenie času, námahy) • Použitie v praxi • Forma experimentu

Prípad použitia

Popis dát • Dve druhy databáz: • Zoznam všetkých slov (dva txt súbory o veľkosti cca 11,5 MB). Tvar databázy: • Slovo bez diakritiky a alternatívy s diakritikou • Napr. spat spať späť špať špát • Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy: • Názov súbora – [analyzované_slovo].txt. • Obsah súbora – alternatívy písania diakritiky slova nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch

Implementácia • Java (Eclipse) -> multiplatformovosť • Prevažne práca so súbormi a string-ami • Aplikácia s GUI (využitie awt, swing) • Jednoduché ovládanie • Kód – 8 tried v 3 balíkoch: • main – trieda Main • gui – trieda používateľského rozhrania • logic – ostatných 6 tried s hlavnou logikou programu

Zhodnotenie • Dobrá použiteľnosť programu • Vysoká úspešnosť v testovaní: • Testovanie na článkoch Sme a texte diplomovej práce • Úspešnosť správneho prekladu slova podľa databázy – 97,5% • Ďalšie možnosti zlepšenia • Nevýhody: • Potreba databáz (20 MB) • Dlhšie trvanie pre väčšie súbory (asi minúta pri 50 stranách)

Ďakujem za pozornosť Matej Sabo

Vkladanie diakritiky s využitím štatistickej analýzy textu

Vkladanie diakritiky s využitím štatistickej analýzy textu

Presentation Transcript

Acute Ano-rectal Conditions

Patologia Perianal

Gastrointestinal Disorders

Treatment for Anal fistula

Advancement flaps for fistula in ano

Šifrovanie

Anal Cancer

Enfermedad por VIH 2011

Perianal suppuration anal abscess-fistula

Imaging of Anal Fistula

Anal Pain and Discharge

Anal Rectal Diseases

Úvod do UNIXu

Šifrovanie

Minor anorectal conditions

4. Gerilme Analizi

Açımlayıcı Fa k t ö r Anal izi (AFA)

CONCEPTOS ACTUALES EN EL TRATAMIENTO DE LA FISTULA ANAL

소화기계통 Digestive System

ÚVOD DO SVĚTA POČÍTAČŮ kunovsky@dcse.fee.vutbr.cz fee.vutbr.cz/~kunovsky

Analitika II. Tömegspektrometria

Onkologisk behandling av GI cancer