120 likes | 286 Views
Know T2. P rocesadores lingüísticos UPV/EHU. Know.Tarea 2. PROCESADORES LINGÜÍSTICOS.
E N D
Know.Tarea 2. PROCESADORES LINGÜÍSTICOS • “UB reunirá los procesadores lingüísticos existentes para cada una de las lenguas de KNOW, y abordará el desarrollo del eslabón perdido: analizadores sintácticos de amplia coberturapara el español, catalán y euskera. Además, este subproyecto adquirirá modelos verbales, que son indispensables para dar coherencia a los análisis sintácticos y permiten la interpretación semántica.”
Know: Objetivos T2 Recursos Lingüísticos básicos. Adaptación, recopilación y enriquecimiento de las herramientas y recursos lingüísticos básicos disponibles para todas las tareas del proyecto. Esto incluye: • Identificación de las unidades y límites oracionales • Análisis morfológico • Tratamiento de entidades referenciales • Análisis sintáctico parcial • Subcategorización y patrones de diátesis • Análisis sintáctico profundo automático. • Desarrollo de gramáticas para el análisis sintáctico profundo para las lenguas del proyecto. (UB, EHU/UPV)
Know: Objetivos T2 En el análisis sintáctico • Estandarización de las anotaciones de los diferentes corpus sintácticos. • Estudio de la situación actual de los analizadores sintácticos de las lenguas implicadas en el proyecto. • Desarrollo de gramáticas sintácticas para las lenguas del proyecto con el objetivo de realizar un análisis sintáctico profundo. • Implementación y evaluación de las versiones de la gramática
PROCESADORES LINGÜÍSTICOS UPV/EHU Recursos lingüísticos básicos (1) • Chunker (Constraint Grammar, rule-based) • Sintagmas nominales • Cadenas verbales • Tratamiento de entidades
PROCESADORES LINGÜÍSTICOS UPV/EHU Recursos lingüísticos básicos (2) • Corpus etiquetado sintácticamente: • Basado en dependencias • 50.000 palabras actualmente (3LB) • Extensión a otras 250.000
PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (A) Analizador de dependencias (Constraint Grammar): • Basado en reglas • Sintaxis parcial (?) • Falta evaluación
PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (B) Statistical parsing, dependency-based. • Primer año: estado del arte: • Spanish (Cowan and Collins 2005); • English (Bikel/Collins 2004); Charniak (2000); (Briscoe and Carroll 2006) • Turkish (Oflazer 2006) • CoNLL 2006/2007 • MaltParser (Nivre et al. 2007) • Fin del primer año: primera versión del analizador estadístico para el euskera
PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (B) Statistical parsing, dependency-based • MaltParser (Nivre et al. 2007). Determinista • Basado en el treebank 3LB • Experimentos: 73% (Labeled Attachment Accuracy) • Tratamiento de ambigüedad morfosintáctica?
PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (B) Statistical parsing, dependency-based. CoNLL 2007
PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (C) Statistical parsing, dependency-based. • Segundo año: añadir información léxica (subcategorización verbal, etc.; Aitziber Atutxa?)
PROCESADORES LINGÜÍSTICOS UPV/EHU Análisis sintáctico (C) RASP (rule-based + statistical training): • Actualmente: ~200 reglas • Entrenado sobre 100 sentencias anotadas manualmente • Previsto: ?