230 likes | 432 Views
Estudio preliminar para la creación de Euskal PropBank. Izaskun Aldezabal Roteta Grupo Ixa, UPV-EHU SERES. Octubre, 2006. Esquema. Finalidad Recursos Metodología Conclusiones. Finalidad. Comprobar la validez del modelo de etiquetado de PropBank para el euskera Motivación:
E N D
Estudio preliminar para la creación deEuskal PropBank Izaskun Aldezabal Roteta Grupo Ixa, UPV-EHU SERES. Octubre, 2006
Esquema • Finalidad • Recursos • Metodología • Conclusiones
Finalidad • Comprobar la validez del modelo de etiquetado de PropBank para el euskera • Motivación: • Parten de un corpus etiquetado sintácticamente • Decisiones importantes tomadas: distinción argumentos/adjuntos, sentidos... • Se está trabajando con más lenguas: chino, español, catalán, euskera (español-catalán-euskera, en la acción complementaria CESS-ECE). Comparación multilingüe.
Recursos • Corpus Eus3LB: Corpus del euskera etiquetado sintácticamente, basándose en dependencias (50.000 palabras). • Base de datos creada con la información obtenida de PropBank y Verbnet. (Grupo Ixa + base de datos (de pago) PropBank). • Diccionarios monolingües y bilingües (euskera-castellano inglés) • Tesis de Aldezabal (2004)Estudio de la subcategorización verbal. Análisis detallado de 100 verbos en euskera, basándose en Levin (1993) y utilizando métodos automáticos.
Metodología • Preparar la entrada léxica del verbo • Elegir el verbo en euskera • Obtener la visión general de los sentidos del verbo en euskera y buscar sus equivalentes léxicos en inglés • Analizar los equivalentes sintácticos en inglés • Aplicar las entradas equivalentes de VerbNet y PropBank al euskera • Etiquetar el corpus con los roles temáticos • Etiquetar el corpus • Criterios generales • Agrupar las dudas y completar la tabla de comentarios • Revisar/modificar la entrada
242 %38.0 egin 236 %37.0 izan 185 %29.0 esan 104 %16.0 adierazi 94 %15.0 eskatu 76 %12.0 eman 67 %10.0 azaldu 62 %9.0 hartu 61 %9.0 jo 61 %9.0 salatu Metodología IPreparar la entrada léxica del verbo (I) • Elegir el verbo en euskera: • Eus3lb • 622 verbos diferentes • 40 verbos de más de 20 apariciones • 482 verbos de menos de 5 apariciones • Criterios: facilidad y frecuencia
Metodología IPreparar la entrada léxica del verbo (II) • Obtener la visión general de los sentidos del verbo en euskera • Diccionarios monolingües • ‘Expresar algo mediante palabras’ / ‘prometer’ / ‘llamarse’ • Tesis Aldezabal (2004) Dos sentidos: • esan-DU-1 y esan-DU-2: actividad (de expresión) de una entidad • esan-DIO-3: asignación de un atributo o característica a una entidad • Conclusiones Dos acepciones • alguien dice (a alguien) algo • alguien llama a algo de una manera
Metodología IPreparar la entrada léxica del verbo (III) • Analizar los equivalentes léxicos en inglés para esos sentidos • Diccionarios bilingües • alguien dice (a alguien) algo : say eta tell • alguien llama a algo de una madera: call
Metodología IPreparar la entrada léxica del verbo (IV) • Analizar los equivalentes sintácticos en PropBank y en Verbnet. Para ello: • Enterder la filosofía general de PropBank • Entender la filosofía general de Verbnet
Metodología IPreparar la entrada léxica del verbo (V) Filosofía general de PropBank • Dos niveles independientes: • Argumentos y adjuntos • Argumentos [0-4] (Arg0, Arg1, …, Arg4) • Adjuntos (ArgM) • Roles semánticos específicos: buyer, thing bought, speaker… • Cada verbo tiene sus rolsets (sentidos) y cada rolset tiene sus frames (realizaciones sintácticas: frameset)
Metodología IPreparar la entrada léxica del verbo (VI) Ejemplo: tell El roleset de tell.01 es: arg 0 speaker arg 1 utterance arg 2 hearer • Los frames asociados con el rolset tell.01 se expresan de la siguiente manera: • ditransitive (-) • The score tell you what the characters are thinking and feeling. • Arg0: The score • REL: tell • Arg2: you • Arg1: what the characters are thinking and feeling • odd ditransitive (-) • prepositional arg2 (-) • fronted (-)
Metodología IPreparar la entrada léxica del verbo (VII) Filosofía general de Verbnet: http://www.cis.upenn.edu/group/verbnet/ • Clasificación basada en Levin (1993): • Número de la clase: 9.1, 9.2, 10.1… • Roles semánticos generales: agent, theme, topic, beneficiary… • Propiedades semánticas: ±animate, ±organization, ±communication, ±concrete, ±location, ±region, ±animal …
Metodologia IPreparar la entrada léxica del verbo (VIII) Consultar los verbos (say, tell y call) en la base de datos Verbnet/PropBank Ej.: say.01 (LEVIN say 37.7) ARG0-null Sayer (VN Agent 37.7) = 10449(by = 1) ARG1-null Utterance (VN Topic 37.7) = 10491(by = 1) 10503 ARG2-null Hearer (VN Recipient 37.7) = 12(to = 10) ARG3-null Attributive (VN ) = 37 (null = 2, about = 10, ADV = 1, for = 2, For = 3, in = 1, of = 16, Of = 2) tell.01 (LEVIN pass along information 37.1-1 37.2) ARG0-null Speaker (VN Agent 37.1-1:Agent 37.2) = 323 (by = 4) 356 ARG1-null Utterance (VN Topic 37.1-1:Topic 37.2) = 340 (about = 8, of =5) ARG2-null Hearer (VN Recipient 37.1-1:Recipient 37.)=310 (to=2, REC=1)
Metodología IPreparar la entrada léxica del verbo (IX) Tener en cuenta lo propuesto en la tesis de Aldezabal (2004) (esan) 3 frames sintáctico-semánticos (fss), correspondientes a dos sentidos: 1. alguien dice algo: 2 argumentos con 2 variantes sintácticas: esan-DU-1: experimentador (erg); tema (abs) esan-DU-2: experimentador (erg); tema (compl.) 2. alguien a algo/alguien dice de un forma: 3 argumentos, sin variantes sintácticas: esan-DU-3: origen (erg); destino (dat); característica (abs)
Metodologia IPreparar la entrada léxica del verbo (X) • Proponer la entrada léxica del verbo esan al estilo PropBank, manteniendo la información de los casos: esan.01 (alguien dice algo a alguien sobre algo) Arg0 el que dice sayer agent ERG Arg1 lo dicho utterance topic ABS/COMPL Arg2 oyente hearer recipient DAT Arg3 atributo attributive??? INS / -i buruz esan.02 (alguien dice a algo/alguien de una manera) Arg0 el que dice caller agent ERG Arg1 el calificado item being labelled theme DAT Arg2 la calificación attribute of arg1 predicate ABS
Metodología IIEtiquetar el corpus con roles temáticos (I) • Etiquetar el corpus EPEC (corpus de referencia para el tratamiento del euskera). 300.000 palabras. Euskal gatazka ez dela armen bidez konponduko esan digu, politikoki baizik, borroka armatua eta errepresio itsua gaitzetsirik (‘Nos ha dicho que el conflicto vasco no se arreglará mediante las armas…’) ccomp_obj (konp, esan, aditz_aurk, dela) Arg1 utterance/topic ncsubj (erg, esan, pro2.1, pro2.1, subj) nczobj (dat, esan, pro3.1, pro3.1, zobj) auxmod (-, esan, digu) Gurreak ekintza salatu eta familiari elkartasuna adierazi zion, Gobernuaren izenean (‘Gurrea ha denunciado lo sucedido y le ha expresado su solidaridad a la familia…’) ncsubj (erg, adierazi, pro1.1, pro1.1, subj) nczobj (dat, adierazi, familiari, familiari, zobj) Arg2 entzulea/hearer/recipient ncobj (abs, adierazi, elkartasuna, elkartasuna, obj) Arg1 utterance/topic auxmod (-, adierazi, zion)
Metodología IIEtiquetar el corpus con roles temáticos (II) • Teniendo en cuenta los criterios generales • Los más importantes • Semántica superficial (sólo los argumentos/adjuntos que aparecen en el corpus) • La unidad es la oración de cada verbo a tratar • Dejar a un lado las oraciones dudosas
Metodología IIIAgrupar las dudas. Revisar/modificar la entrada • Agrupar dudas y completar la tabla de comentarios Problemas con los argumentos: -Arg3 attributive: -ren kasuan , –ren aurrean , -ren gainean, -ri buruz... Son attributive?. Comparar si con otros verbos estos casos complejos tienen el mismo valor. Ejemplos dudosos: - Ambigüedad de los modificadores: ¿pertenecen a un verbo u otro? • Revisar/modificar la entrada, si hace falta: • añadir/quitar • argumentos • sentidos • realizaciones sintácticas
Conclusiones I • La adecuación al euskera de las entradas y el etiquetado del modelo PropBank no ha acarreado mayores problemas. Hemos trabajado con tres verbos (esan, adierazi, eskatu). Quizás hay que probar con verbos más difíciles (ambiguos) • Con todo, el estudio preliminar ha demostrado que el modelo PropBank es válido para el euskera • Prevemos realizar el etiquetado de forma semiautómatica. De la siguiente manera:
Conclusiones IIEtiquetado semiautomático • Etiquetado semiautómático: • Se pueden utilizar heurísticos que garantizan un etiquetado autómatico correcto: • Pueden ser generales: • Caso de declinación ERG => Arg0 • Pueden ser específicos (para cada verbo)
Conclusiones IIIEtiquetado semiautomático • Por ejemplo, con el verbo esan, las ambigüedades de los casos según los sentidos son las siguientes:
Conclusiones IIIEtiquetado semiautomático • Así: • Los casos COMP, INS e -I BURUZ, desambiguarían los sentidos y roles sin ningún error. • En el corpus, el COMP aparece en un 82 %, y el INS en un 3 % • Eso significa que sólo un 18 % quedaría ambíguo, para tratarlo manualmente.
Conclusiones IIIEtiquetado semiautomático • Los adjuntos hay que etiquetarlos manualmente. • Hace falta una revisión manual final • La tarea principal consiste en definir bien las entradas verbales. A partir de ahí, se pueden proponer métodos semiautomáticos que faciliten y agilicen la tarea de etiquetado.