Named entity recognition s učením na slovenské mená

Named entity recognition s učenímna slovenské mená Michal Jesenský Vyhľadávanie Informácií 2010/2011

Zadanie, motivácia • Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu • Pomenované entity nie je ľahké kategorizovať do slovníka ani databázy • Závisí od kontextu viet, či sa jedná o entitu a o akú entitu sa jedná • Na toto je vhodné použiť trénovacie algoritmy na rozsiahlej množine textov • Použitá je knižnica OpenNlp, ktorá trénuje a modely a využíva ich na detekciu pomocou spôsobu maximálnej entropie

Podobné riešenia • Stanford Named Entity Recognizer (NER) • http://nlp.stanford.edu/software/CRF-NER.shtml • YooName • http://yooname.wordpress.com/ • OpenCalais • http://www.opencalais.com/

Postup práce • Vytvorenie sloveského korpusu • Získanie zoznamu slovenských mien zo slovenského kalendára http://calendar.zoznam.sk/ • Získanie 200 riadkov textu pre každé meno zo stránky http://www.korpus.sk/ • Použitie regulárnych výrazov pre spracovanie riadkov na vety a otagovanie mien aj s priezviskami aj vo viacerých pádoch ako v 1. • Výsledok okolo 113000 riadkov s otagovanými menami • Optimalizácia korpusu – zníženie počtu mien, ktoré sa vyskytujú viac ako 450 - 500 krát v nejakom páde • Výsledok okolo 96000 riadkov s otagovanými menami

Postup práce pokr. • Vygenerovanie modelu z oboch typov trénovacích dát so základnými nastaveniami (cutoff 5, iterations 100, default Feature Generator) • Vygenerovanie modelov s vlastnými nastaveniami trénovania (cutoff 10, 25, iterations 200, custom Feature Generator) • Implementácia GUI v Java swing na zjednodušenie práce s trénovaním a použitím modelu na rozpoznávanie • Nutnosť vygenerovať model sentencedetectora, lebo na rozpoznávanie mien v texte, musí byť text formátovaný 1 veta 1 riadok ako v trénovacích dátach

Softvér

Softvér pokr.

Vyhodnotenie • Vytvorené modely majú dobrú presnosť (precission) • Trénovacie dáta max 92%, min 82% • Testovacie dáta max 92%, min 79% • Ale neoznačia veľké množstvo entít (recall) • Trénovacie dátamax64 %, min 13% • Testovacie dáta max 46%, min 14%

Named entity recognition s učením na slovenské mená

Named entity recognition s učením na slovenské mená

Presentation Transcript

An overview of the SPHINX Speech Recognition System

Child Abuse: Recognition and Reporting

ADO.NET Entity Framework

Use of Sound in Games

3D Model-Based Hand Gesture Recognition and Tracking

Revenue Recognition

Recognition Part I

Entity Symbols

Conditional Random Fields for Automatic Speech Recognition

Chapter 6

Information Extraction

SLOVENSK Á OBCHODNÁ A PRIEMYSELNÁ KOMORA Regionálna komora Trenčín Jilemnickeho 2

807 - TEXT ANALYTICS

FPGA 技术

Institute of Information Theory and Automation Introduction to Pattern Recognition

Abductive Plan Recognition By Extending Bayesian Logic Programs

Introduction to Pattern Recognition Chapter 1 ( Duda et al.)

ERD (Entity Relationship Diagram)

Design and Implementation of Speech Recognition Systems

Sequence Scoring Experiments Using the TIMIT Corpus and the HTK Recognition Framework

Chapter 7: Entity-Relationship Model

Conditional Random Fields for Automatic Speech Recognition