60 likes | 194 Views
Vyhledávání pojmenovaných entit. Named Entity Recognition Martin Hejtmánek. Pojmenované entity. jsou vlastní jména… …ale nejen to: data (13.12.2007) částky (5000 $ ) názvy firem (Microsoft) zeměpisné názvy (Mount Everest) mohou být i víceslovné. Můj program. pracuje s anglickými texty
E N D
Vyhledávání pojmenovaných entit Named Entity Recognition Martin Hejtmánek
Pojmenované entity jsou vlastní jména… …ale nejen to: • data (13.12.2007) • částky (5000 $) • názvy firem (Microsoft) • zeměpisné názvy (Mount Everest) mohou být i víceslovné
Můj program • pracuje s anglickými texty • hledá pouze vlastní jména (pro zjednodušení) • využívá Collinsovu metodu
Collinsova metoda • hledá tzv. spínače • využívá krátký seznam NENT • počítá četnosti slov před a po NENT • slova s danou četností označí jako spínače • pomocí spínačů rozšíří seznam NENT • postup opakuje
Collinsova metoda • příklad: Jiří Pytlíček, prom. mat. => kandidát na spínač Mr. Oistrakh => kandidát na spínač
Klady a zápory + jednoduchý algoritmus • pomalý • ne příliš přesný