270 likes | 398 Views
Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic. Mª Antònia Martí. http://clic.ub.edu http://clic.ub.edu/ancora. Índex. Descripció del corpus Nivells d’anotació Metodologia Sistema d’anotació Procediment d’anotació manual: guies Eines d’anotació
E N D
Projecte AnCoraCorpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí http://clic.ub.edu http://clic.ub.edu/ancora
Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta
Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta
Anàlisi morfològica (1) paraula lema1 tag1, lema2 tag2, lema3 tag3, ... ‘bajo’ bajar VM1SIP, bajo AQ0MS, bajo PS00, bajo NCMS, …
Anàlisi morfològica. Desambiguació (3) Word lemma PoS Si si CS trabajo trabajar VMIP1S0 bajo bajo SPS00 presión presión NCFS000 bajo bajar VMIP1S0 la la DA0FS0 atención atención NCFS000 . . Fp
(S (sn (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C (infinitiu (vmn0000 trabajar)) (sp (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .)) S sn grup.verb S.NF.C espec.fs grup.nom.fs vmis3s0 inf sp sa0fs0 ncfs000 vmn000 trabajar La declaración propugnó por la … Anotació constituents
S sn-SUJ grup.verb S.NF.C-CD espec.fs grup.nom.fs vmis3s0 inf sp-CREG sa0fs0 ncfs000 trabajar La declaración propugnó por la … Anotació constituents (S (sn-SUJ (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C-CD (infinitiu (vmn0000 trabajar)) (sp-CREG (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))
S sn-SUJ-Arg0-AGT g.v S.NF.C-CD-Arg1-TEM espec.fs grup.nom.fs vmis3s0 inf sp-CREG-A sa0fs0 ncfs000 trabajar La declaración propugnó por la … Anotació Arguments i PT (S (sn-SUJ-Arg0-AGT (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C-CD-Arg1-TEM (infinitiu (vmn0000 trabajar)) (sp-CREG-Arg2-FIN (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))
Altres anotacions • Sentits nominals de la xarxa semàntica WordNet • Entitats amb nom http://clic.ub.edu/ancora
Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta
Metodologia Anotació automàtica: Morfologia Sintaxi superficial Anotació manual: Constituents Funcions Arguments Papers temàtics WordNet Entitats amb nom Anotació semiautomàtica Arguments i papers temàtics (parcialment) Lexicó sintàcticosemàntic
Lexicons sintàcticosemàntics mejorar - 01 LSS1.1 SUJ Arg0##CAU CD Arg1##TEM CC ArgM##TMP/#ADV EJ: "obligará a mejorar la calidad del ataque" EJ: "que han mejorado las relaciones laborales" +ANTICAUSATIVA LSS2.2 SUJ Arg1##TEM CC ArgM##ADV/para#FIN EJ: "Por una parte, las técnicas de diseminación han mejorado mucho" EJ: "el mencionado proyecto de ley sea mejorado para permitir nombres así"
Metodologia Guies d’anotació Anotació en paral·lel del mateix fragment de text (5-7 anotadors) Procés iteratiu fins arribar a un grau d’acord superior al 95% Modificació de la guia d’anotació (Documentació a la web)
Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta
Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta
Dades que s’ obtenen The 10th most frequent lemmata are: The most frequent noun is ‘any’ (year) in the 28th row and the second is ‘milió’ (milion) in the 46th.
Dades que s’ obtenen Total functions: 119.318 There are 32 errors. Total tags: 119.286
Dades que s’ obtenen Total amount of 119.318 tagged functions, 106.807 receive an argument (89,49%). 47 different combinations of functions and arguments 86 different combinations of function-argument and thematic role.
Dades que s’ obtenen Total 'sn-ne' 69.251 total 'sn-ne' diferents 6 20.645 (29.81%) org 17.164 (24.79%) loc 16.715 (24.14%) pers 8.158 (11.78%) other 3.319 (4.79%) num 3.250 (4.69%) date Total 'np-ne' 29.539 total 'np-ne' diferents5 10.137 (34.32%) o 8.176 (27.68%) l 7.590 (25.69%) p 3.635 (12.31%) a 1 (0.00%) d
Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta
Interfície de consulta http://clic.ub.edu/ancora