1 / 8

Named entity recognition s učením na slovenské mená

Named entity recognition s učením na slovenské mená. Michal Jesenský Vyhľadávanie Informácií 2010 /2011. Zadanie , moti vácia. Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu

danyl
Download Presentation

Named entity recognition s učením na slovenské mená

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Named entity recognition s učenímna slovenské mená Michal Jesenský Vyhľadávanie Informácií 2010/2011

  2. Zadanie, motivácia • Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu • Pomenované entity nie je ľahké kategorizovať do slovníka ani databázy • Závisí od kontextu viet, či sa jedná o entitu a o akú entitu sa jedná • Na toto je vhodné použiť trénovacie algoritmy na rozsiahlej množine textov • Použitá je knižnica OpenNlp, ktorá trénuje a modely a využíva ich na detekciu pomocou spôsobu maximálnej entropie

  3. Podobné riešenia • Stanford Named Entity Recognizer (NER) • http://nlp.stanford.edu/software/CRF-NER.shtml • YooName • http://yooname.wordpress.com/ • OpenCalais • http://www.opencalais.com/

  4. Postup práce • Vytvorenie sloveského korpusu • Získanie zoznamu slovenských mien zo slovenského kalendára http://calendar.zoznam.sk/ • Získanie 200 riadkov textu pre každé meno zo stránky http://www.korpus.sk/ • Použitie regulárnych výrazov pre spracovanie riadkov na vety a otagovanie mien aj s priezviskami aj vo viacerých pádoch ako v 1. • Výsledok okolo 113000 riadkov s otagovanými menami • Optimalizácia korpusu – zníženie počtu mien, ktoré sa vyskytujú viac ako 450 - 500 krát v nejakom páde • Výsledok okolo 96000 riadkov s otagovanými menami

  5. Postup práce pokr. • Vygenerovanie modelu z oboch typov trénovacích dát so základnými nastaveniami (cutoff 5, iterations 100, default Feature Generator) • Vygenerovanie modelov s vlastnými nastaveniami trénovania (cutoff 10, 25, iterations 200, custom Feature Generator) • Implementácia GUI v Java swing na zjednodušenie práce s trénovaním a použitím modelu na rozpoznávanie • Nutnosť vygenerovať model sentencedetectora, lebo na rozpoznávanie mien v texte, musí byť text formátovaný 1 veta 1 riadok ako v trénovacích dátach

  6. Softvér

  7. Softvér pokr.

  8. Vyhodnotenie • Vytvorené modely majú dobrú presnosť (precission) • Trénovacie dáta max 92%, min 82% • Testovacie dáta max 92%, min 79% • Ale neoznačia veľké množstvo entít (recall) • Trénovacie dátamax64 %, min 13% • Testovacie dáta max 46%, min 14%

More Related