80 likes | 230 Views
Named entity recognition s učením na slovenské mená. Michal Jesenský Vyhľadávanie Informácií 2010 /2011. Zadanie , moti vácia. Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu
E N D
Named entity recognition s učenímna slovenské mená Michal Jesenský Vyhľadávanie Informácií 2010/2011
Zadanie, motivácia • Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu • Pomenované entity nie je ľahké kategorizovať do slovníka ani databázy • Závisí od kontextu viet, či sa jedná o entitu a o akú entitu sa jedná • Na toto je vhodné použiť trénovacie algoritmy na rozsiahlej množine textov • Použitá je knižnica OpenNlp, ktorá trénuje a modely a využíva ich na detekciu pomocou spôsobu maximálnej entropie
Podobné riešenia • Stanford Named Entity Recognizer (NER) • http://nlp.stanford.edu/software/CRF-NER.shtml • YooName • http://yooname.wordpress.com/ • OpenCalais • http://www.opencalais.com/
Postup práce • Vytvorenie sloveského korpusu • Získanie zoznamu slovenských mien zo slovenského kalendára http://calendar.zoznam.sk/ • Získanie 200 riadkov textu pre každé meno zo stránky http://www.korpus.sk/ • Použitie regulárnych výrazov pre spracovanie riadkov na vety a otagovanie mien aj s priezviskami aj vo viacerých pádoch ako v 1. • Výsledok okolo 113000 riadkov s otagovanými menami • Optimalizácia korpusu – zníženie počtu mien, ktoré sa vyskytujú viac ako 450 - 500 krát v nejakom páde • Výsledok okolo 96000 riadkov s otagovanými menami
Postup práce pokr. • Vygenerovanie modelu z oboch typov trénovacích dát so základnými nastaveniami (cutoff 5, iterations 100, default Feature Generator) • Vygenerovanie modelov s vlastnými nastaveniami trénovania (cutoff 10, 25, iterations 200, custom Feature Generator) • Implementácia GUI v Java swing na zjednodušenie práce s trénovaním a použitím modelu na rozpoznávanie • Nutnosť vygenerovať model sentencedetectora, lebo na rozpoznávanie mien v texte, musí byť text formátovaný 1 veta 1 riadok ako v trénovacích dátach
Vyhodnotenie • Vytvorené modely majú dobrú presnosť (precission) • Trénovacie dáta max 92%, min 82% • Testovacie dáta max 92%, min 79% • Ale neoznačia veľké množstvo entít (recall) • Trénovacie dátamax64 %, min 13% • Testovacie dáta max 46%, min 14%