1 / 12

Know T2. P rocesadores lingüísticos UPV/EHU

Know T2. P rocesadores lingüísticos UPV/EHU. Know.Tarea 2. PROCESADORES LINGÜÍSTICOS.

thalia
Download Presentation

Know T2. P rocesadores lingüísticos UPV/EHU

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. KnowT2. Procesadores lingüísticosUPV/EHU

  2. Know.Tarea 2. PROCESADORES LINGÜÍSTICOS • “UB reunirá los procesadores lingüísticos existentes para cada una de las lenguas de KNOW, y abordará el desarrollo del eslabón perdido: analizadores sintácticos de amplia coberturapara el español, catalán y euskera. Además, este subproyecto adquirirá modelos verbales, que son indispensables para dar coherencia a los análisis sintácticos y permiten la interpretación semántica.”

  3. Know: Objetivos T2 Recursos Lingüísticos básicos. Adaptación, recopilación y enriquecimiento de las herramientas y recursos lingüísticos básicos disponibles para todas las tareas del proyecto. Esto incluye: • Identificación de las unidades y límites oracionales • Análisis morfológico • Tratamiento de entidades referenciales • Análisis sintáctico parcial • Subcategorización y patrones de diátesis • Análisis sintáctico profundo automático. • Desarrollo de gramáticas para el análisis sintáctico profundo para las lenguas del proyecto. (UB, EHU/UPV)

  4. Know: Objetivos T2 En el análisis sintáctico • Estandarización de las anotaciones de los diferentes corpus sintácticos. • Estudio de la situación actual de los analizadores sintácticos de las lenguas implicadas en el proyecto. • Desarrollo de gramáticas sintácticas para las lenguas del proyecto con el objetivo de realizar un análisis sintáctico profundo. • Implementación y evaluación de las versiones de la gramática

  5. PROCESADORES LINGÜÍSTICOS UPV/EHU Recursos lingüísticos básicos (1) • Chunker (Constraint Grammar, rule-based) • Sintagmas nominales • Cadenas verbales • Tratamiento de entidades

  6. PROCESADORES LINGÜÍSTICOS UPV/EHU Recursos lingüísticos básicos (2) • Corpus etiquetado sintácticamente: • Basado en dependencias • 50.000 palabras actualmente (3LB) • Extensión a otras 250.000

  7. PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (A) Analizador de dependencias (Constraint Grammar): • Basado en reglas • Sintaxis parcial (?) • Falta evaluación

  8. PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (B) Statistical parsing, dependency-based. • Primer año: estado del arte: • Spanish (Cowan and Collins 2005); • English (Bikel/Collins 2004); Charniak (2000); (Briscoe and Carroll 2006) • Turkish (Oflazer 2006) • CoNLL 2006/2007 • MaltParser (Nivre et al. 2007) • Fin del primer año: primera versión del analizador estadístico para el euskera

  9. PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (B) Statistical parsing, dependency-based • MaltParser (Nivre et al. 2007). Determinista • Basado en el treebank 3LB • Experimentos: 73% (Labeled Attachment Accuracy) • Tratamiento de ambigüedad morfosintáctica?

  10. PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (B) Statistical parsing, dependency-based. CoNLL 2007

  11. PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (C) Statistical parsing, dependency-based. • Segundo año: añadir información léxica (subcategorización verbal, etc.; Aitziber Atutxa?)

  12. PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (C) RASP (rule-based + statistical training): • Actualmente: ~200 reglas • Entrenado sobre 100 sentencias anotadas manualmente • Previsto: ?

More Related