1 / 12

Treebank y anotación semántica en euskara

Treebank y anotación semántica en euskara. Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007. Esquema. Treebank: Principios de anotación Metodología Datos y media Anotación semántica Euskal wordnet / EuSemcor Roles (Euskal propbank). Treebank. Principios de anotación.

morwen
Download Presentation

Treebank y anotación semántica en euskara

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

  2. Esquema • Treebank: • Principios de anotación • Metodología • Datos y media • Anotación semántica • Euskal wordnet / EuSemcor • Roles (Euskal propbank)

  3. Treebank. Principios de anotación • Punto de partida: • Corpus anotado manualmente a nivel de segmentación (cat. subcat., det., num., caso), y con MLWs, Entidades y posposiciones complejas • Etiquetado superficial, pero más completo: árbol completo de aquellos elementos presentes en el texto -> No se marcan: • la elipsis • PRO/pro

  4. Treebank. Principios de anotación • Unidad de tratamiento: oración • De punto (o principio de párrafo) a punto • De punto (o principio de párrafo) a signo de interrogación • De punto (o principio de párrafo) a signo de exclamación • De punto (o principio de párrafo) a dos puntos • Cabeza de sintagma: elemento con significado léxico -> punto de vista semántico Los cimientos principales de la casa vieja

  5. Treebank. Principios de anotación • Una sola etiqueta para cada elemento de dependencia. Excepción: las conjunciones coordinantes • 28 etiquetas de dependencia, con la siguiente jerarquía (basada en Carroll et al., 1998b, 1999)

  6. Treebank. Metodología • Fase de prueba: 2 meses (abril-mayo). Todos los etiquetadores • Familiarización con la herramienta informática (Abar-Hitz) • Ajustes de la herramienta • Formación lingüistica • Etiquetado masivo: • Equipo de trabajo: • 2 etiquetadores (a tiempo parcial) • 1 revisor (a tiempo parcial) • 2 técnicos informáticos de la herramienta (a tiempo parcial)

  7. Treebank. Metodología • Elección de oraciones: Partiendo de la lista de verbos por frecuencia, comenzar por el más frecuente. Observaciones: se plantea etiquetar empezando por los menos frecuentes • Etiquetado: • Un etiquetador por arriba y otro por abajo. El revisor va guardando los ficheros en una carpeta (revisados) • No se etiquetan aquella oraciones que: • son errores gramaticales • no están bien delimitadas • son demasiado largas (a posteriori sí)

  8. Treebank. Datos y media • Hasta ahora se han etiquetado 55.000 palabras • Media en el etiquetado masivo: 200 palabras / h • Se ha hecho un manual de anotación • En un futuro se prevé que: • no haya revisor y éste comience a etiquetar • se incorpore otro etiquetador

  9. Semántica: Euskal Wordnet / EuSemcor EuSemcor Euskal Wordnet

  10. Semántica: roles (Euskal Propbank) • Se ha hecho un estudio preliminar para la validación del modelo Propbank en euskera: Agirre et al. 2006. A Preliminary Study for Building the Basque PropBank.In Proceedings of the 5th International Conference on Language Resources and Evaluations (LREC) http://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1141750676/publikoak/Basque_PropBank.pdf • En este estudio: • se ha establecido una metodología de trabajo • se han etiquetado tres verbos: esan (‘decir’), adierazi (‘expesar’), eskatu(‘pedir’) • se ha demostrado que Propbank es un modelo válido para el euskera • se han establecido estrategias de etiquetado semiautomático

  11. Semántica: roles (Euskal Propbank) • Se preve empezar con el etiquetado semántico después del etiquetado sintáctico, y dependiendo de los recursos

More Related