150 likes | 258 Views
Pojmenované entity. Zden ěk Žabokrtský 26.1.2006, Kvilda. Co jsou NE ?. slova nebo slovní spojení, která v textu vystupují jako pojmenování osob, míst, věcí ... číselné výrazy, data jednotky (měnové, fyzikální...). NE z pohledu rovin PDT (1). m-rovina
E N D
Pojmenované entity Zdeněk Žabokrtský 26.1.2006, Kvilda
Co jsou NE ? • slova nebo slovní spojení, která v textu vystupují jako • pojmenování osob, míst, věcí ... • číselné výrazy, data • jednotky (měnové, fyzikální...) • ...
NE z pohledu rovin PDT (1) • m-rovina • nevyčerpatelný zdroj dosud nespatřených forem • mj. kontakt s jinými jazyky (Ho-či-min, Tel-Aviv) • produktivní homonymie • Veselý Zajíc Vyskočil... • nejasná lematizace • (panu) Novákovi -> Novák • (panu) Novému -> nový ?
NE z pohledu rovin PDT (2) • a-rovina • problematická orientace „závislosti“ • př. Josef Novák vs. Kim Ir-sen • hodnoty afun • křestní jméno ~ přívlastek ? • chybí lingvisticky relevantní znaky závislosti -> potřeba šablon • adresy...
NE z pohledu rovin PDT (3) • t-rovina • velikost písmen v t-lematech • shlukování názvu jedné NE do jednoho uzlu? • WSD ? • ztráta funkčních slov („Proti všem“) • přechylování • (výhledově) učitelka -> učitel.fem • ale: Nováková -> Novák ?
Využití NE • tagging • anaphora resolution • machine translation • Olda Starý -> Olda Old ? • information extraction • speech reconstruction
Výchozí situace pro češtinu • žádný jednotný datový zdroj zaměřený na NE jako celek, ale: • přípony lemat v JH’s morfologii • dostupné databáze • antroponyma (MV ČR) • toponyma (ČSU) • anoikonyma (UJČ) • urbanonyma (www stránky českých měst) • ...
Anotace NE • anotační schéma • klasifikace NE • výběr materiálu k anotaci • datový formát • rozhraní pro anotátora
Dvouúrovňová klasifikace NE (1) • při částečném porozumění možnost „podspecifikace“ • 1. úroveň • p jména osob • o názvy věcí • g geografické názvy • i názvy institucí • m názvy médií • n čísla s nekvantifikačním významem • tnázvy časových úseků • b jména zvířat
Dvouúrovňová klasifikace NE (2) • g geografické názvy • gc názvy států – jako názvy geografických i politických jednotek (i názvy již neexistujících útvarů) • gh názvy vodních útvarů • gl názvy přírodních oblastí, útvarů (př. Sibiř, Apeninský poloostrov, Polabí, Šumava) • gp názvy planet, vesmírných útvarů (př. Země) • gq názvy částí obcí, pomístní názvy • gr názvy menších územních jednotek (př. Morava, Rychnovsko, Badensko-Württembersko) • gsnázvy ulic, náměstí • gt názvy kontinentů • gu názvy obcí, hradů a zámků (př. Praha, Kotěhůlky, Opočno) • p jména osob • pc obyvatelská jména (př. Afričan, Čech, Pražan) • pd titul (pouze pokud je zapsán zkratkou, př. PhDr., prof., doc.) • pf křestní jméno (a to, i jde-li o pseudonym), rovněž zdrobnělá podoba • pm druhé křestní jméno (a to, i jde-li o pseudonym) • pn přezdívka • pp pojmenování náboženských postav, pohádkových a mytických bytostí, personifikovaných vlastností (př. svatý Jakub, Bůh / bůh, Karkulka, čert, Prozřetelnost) • ps příjmení (a to, i jde-li o pseudonym) – součástí příjmení jsou i cizí předložky de, von, van apod. • pt jména skupin na základě jejich rodového původu, jména kmenů (př. Přemyslovci, Apačové, Slovan)
Další anotační značky • speciální typy NE • a adresa • c bibliografický údaj • f slova z cizího jazyka • s zkratky • problematické situace • ? nerozeznaný typ NE • ! rozpadlá věta • lower slovo se normálně píše s malým písmenem • upper slovo se normálně píše s velkým písmenem
Anotační prostředí • editace prostého textu v MS-Word • vkládání značek • <XX – začátek úseku NE a určení typu • > - konec úseku NE 12: A přišlo jitro a s ním i <pc Rusové> . 13: Byla bych raději zůstala v <g Kaempolisu> a pokračovala ve svém díle . " 14: Boj mezi <io Vysídlenci> a <io Usedlíky> byl od začátku do konce ideologickým soupeřením . 15: " Tak to naše <gt Evropa> už není , protože její impulsy jdou cikcak a od zdi ke zdi imrvére do alelujá krucihimlfixnohanmól - kdyby tě hned z kolíbky zahnali makat na rýžovou plantáž , kam patříš a kam tě už volají , <f liebe Europe> , a to stále naléhavěji - ale oni tě místo toho naučili trosky filosofií a jazyků , jezdit tramvají a číst romány , žvanit o demokracii , kouřit a telefonovat - ještě něco ? 16: Nějaký <pc Francouz> kdysi přeložil moje <oa Pyšné tělo> jako <oa<f Fierté de la Chair>> .
Anotovaný materiál • 2000 vět z ČNK (300+500+500+700) • jednoduché výběrové kritérium – velké písmeno uprostřed věty • kontext celé věty • dvě nezávislé anotace • třetí průchod: sjednocení rozdílů
Disambiguace homonymních příjmení • Giger,Štěpán,2005: Návrhy pro řešení homonymie českých příjmení typu Vybíral, Odložil při automatickém morfologickém značkování v korpusu • implementace v Perlu – posloupnost jednoduchých pravidel • následuje-li -li -> sloveso • předchází-li křestní jméno nebo titul -> jméno • testování na části ČNK • chyba statistického taggeru na sledované skupině homonymních forem – cca 12 % • chyba po aplikace disambiguačních pravidel – cca 1 %
Nejbližší úkoly • dočištění anotovaných dat a převod do PML • zjištění kvantitativních vlastností • vyhodnocení shody, analýza chyb • vývoj automatického značkování NE