120 likes | 305 Views
Treebank y anotación semántica en euskara. Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007. Esquema. Treebank: Principios de anotación Metodología Datos y media Anotación semántica Euskal wordnet / EuSemcor Roles (Euskal propbank). Treebank. Principios de anotación.
E N D
Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007
Esquema • Treebank: • Principios de anotación • Metodología • Datos y media • Anotación semántica • Euskal wordnet / EuSemcor • Roles (Euskal propbank)
Treebank. Principios de anotación • Punto de partida: • Corpus anotado manualmente a nivel de segmentación (cat. subcat., det., num., caso), y con MLWs, Entidades y posposiciones complejas • Etiquetado superficial, pero más completo: árbol completo de aquellos elementos presentes en el texto -> No se marcan: • la elipsis • PRO/pro
Treebank. Principios de anotación • Unidad de tratamiento: oración • De punto (o principio de párrafo) a punto • De punto (o principio de párrafo) a signo de interrogación • De punto (o principio de párrafo) a signo de exclamación • De punto (o principio de párrafo) a dos puntos • Cabeza de sintagma: elemento con significado léxico -> punto de vista semántico Los cimientos principales de la casa vieja
Treebank. Principios de anotación • Una sola etiqueta para cada elemento de dependencia. Excepción: las conjunciones coordinantes • 28 etiquetas de dependencia, con la siguiente jerarquía (basada en Carroll et al., 1998b, 1999)
Treebank. Metodología • Fase de prueba: 2 meses (abril-mayo). Todos los etiquetadores • Familiarización con la herramienta informática (Abar-Hitz) • Ajustes de la herramienta • Formación lingüistica • Etiquetado masivo: • Equipo de trabajo: • 2 etiquetadores (a tiempo parcial) • 1 revisor (a tiempo parcial) • 2 técnicos informáticos de la herramienta (a tiempo parcial)
Treebank. Metodología • Elección de oraciones: Partiendo de la lista de verbos por frecuencia, comenzar por el más frecuente. Observaciones: se plantea etiquetar empezando por los menos frecuentes • Etiquetado: • Un etiquetador por arriba y otro por abajo. El revisor va guardando los ficheros en una carpeta (revisados) • No se etiquetan aquella oraciones que: • son errores gramaticales • no están bien delimitadas • son demasiado largas (a posteriori sí)
Treebank. Datos y media • Hasta ahora se han etiquetado 55.000 palabras • Media en el etiquetado masivo: 200 palabras / h • Se ha hecho un manual de anotación • En un futuro se prevé que: • no haya revisor y éste comience a etiquetar • se incorpore otro etiquetador
Semántica: Euskal Wordnet / EuSemcor EuSemcor Euskal Wordnet
Semántica: roles (Euskal Propbank) • Se ha hecho un estudio preliminar para la validación del modelo Propbank en euskera: Agirre et al. 2006. A Preliminary Study for Building the Basque PropBank.In Proceedings of the 5th International Conference on Language Resources and Evaluations (LREC) http://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1141750676/publikoak/Basque_PropBank.pdf • En este estudio: • se ha establecido una metodología de trabajo • se han etiquetado tres verbos: esan (‘decir’), adierazi (‘expesar’), eskatu(‘pedir’) • se ha demostrado que Propbank es un modelo válido para el euskera • se han establecido estrategias de etiquetado semiautomático
Semántica: roles (Euskal Propbank) • Se preve empezar con el etiquetado semántico después del etiquetado sintáctico, y dependiendo de los recursos