230 likes | 381 Views
Análisis sintáctico. GRIAL – UB KNOW. Análisis sintàctico. Situación actual del análisis sintáctico del español Desarrollo de una gramática Adquisición de información para guiar el análisis sintáctico. Situación actual. Analizadores existentes ‘asequibles’ análisis total Hispal Conexor
E N D
Análisis sintáctico GRIAL – UB KNOW
Análisis sintàctico • Situación actual del análisis sintáctico del español • Desarrollo de una gramática • Adquisición de información para guiar el análisis sintáctico
Situación actual • Analizadores existentes ‘asequibles’ análisis total • Hispal • Conexor • Freeling • Evaluación cualitativa • Análisis comparativo de los resultados - constituyentes, oraciones subordinadas - mala identificación de la función sintáctica - sintagmas preposicionales - complementos directos con ‘a’ - identificación de constituyentes coordinados - multiword expressions - adverbiales vs. objeto directo - elipsis del verbo principal en una cláusula
Gramática • RASP • Constituyentes básicos : sn, sv, sadj, sadv,sp, coordinación léxica y sintagmática • Construcciones principales • Oraciones subordinadas relativas y completivas • Metarreglas??? • Gramática completa
RASP gramática de unificación: GPSG rasgos reglas de estructura de frase metarreglas ? no incluye lemas código cerrado gramática completa FREELING gramática de dependencias clases reglas a pares funciones de situación en el árbol incluye lemas código “abierto” gramática de la oración Gramática del español
Adquisición de Patrones de Subcategorización Objetivo • Obtener clases de comportamiento sintáctico de los verbos a partir de SENSEM • Extrapolar estos comportamientos a verbos desconocidos adquisición • Fases • Crear una clasificación inducida a partir de los ejemplos / sentidos de SENSEM • Aprender el clasificador • Aplicar el clasificador sobre verbos no conocidos
Metodología • Corpus etiquetado manualmente • Reducción de los casos PS • Inducción de clases clasificación • Evaluación y selección de la solución • Clasificador a partir de los ejemplos • Analizados manual/automáticamente • Agrupación por sentidos /ejemplos • Asignación de clases a ejemplos no vistos
SenSem • Corpus etiquetado: • Delimitación de constituyentes • Categoría sintáctica • Función sintáctica • Rol semántico • Clase eventiva
Reducción • Patrones de Subcats • Argumentos • Sin variedad de orden • Compactación de categorías • sn v sp • sn(sto) v sp(oprep) • sn(sto-exp) v sp(oprep-tema)
Patrones • 998 sentidos • 250 lemas verbales • Patrones
Clasificación sentido verbal • cada sentido se representa como un vector • las dimensiones de los vectores son todos los esquemas de subcategorización que se dan en el corpus • los valores de cada vector para cada dimensión son el número de veces que ocurre el sentido con el esquema • anotación manual ejemplos individuales • cada ejemplo se representa como un vector • las dimensiones de los vectores son todos los esquemas de subcategorización que se dan en el corpus • los valores de cada vector para cada dimensión son binarios: o el ejemplo tiene el esquema de la dimensión o no lo tiene • anotación automática
Clasificación • Clustering • Simple Kmeans • Expectation-Maximization • Clusters • Subclusters
Evaluación de las clasificaciones • Evaluación • Tienen sentido los vectores: diátesis (compactadas) • Distribución de la población en clases • Parejas de verbos similares • Distinguibilidad de sentidos • Overlap de patrones • Aplicación de diferentes clasificadores con diferentes configuraciones
Solucion C+F 3 clases • Clase 1: 704 sentidos verbales. Clase mixta 83% alternante: omisión de complemento 16% único patrón: trans, intrans y prep Subclustering: 5 clases • una clase mayoritaria con esquemas de subcategorización muy dispares • diversas clases más pequeñas que agrupan verbos con comportamientos mucho más definidos. • Clase 2: 153 sentidos verbales • esquemas transitivos. • Diátesis: trans intrans trans ditrans • Clase 3: 39 sentidos verbales • esquemas preposicionales y alta frecuencia de atributivos/circunstanciales/predicativos • diátesis se caracterizan por la omision/elisión de algunos preposicionales • preposicional - intransitiu
Solución C+F >10 subcluster • clase 5 (477) Diatesis: transitivos e intransitivos y en algún caso con preposicionales. subclases las subclases 5.5, 5.3 y 5.2 esquemas transitivos e intransitivos, las subclases 5.4, 5.6, 5.7 y 5.8 la alternancia intransitivo/preposicional • clase 2 (163) Diatesis: preps intrans y ditrans preps subclases 2.2 esquemas ditranstivos 2.1.esquemas con circunstanciales .
Solución C+F >10 sublcuster • Clase 1 (103) y clase 3 (68) Diatesis; transtiva/ditransitiva/intransitiva Estas clases no presentan subclases. • Clase 4 Diatesis: preposicionales intransitivos presencia de atributos. subclases 4.1 Diatesis: preposicional/intransitiva con atributos 4.2 Totalmente preposicional 4.3 Diatesis: transitivos preposicionales.
Porcentaje de sentidos bien clasificados en el primer nivel de clustering para la aproximación con esquemas de función y categoría que ocurren más de 10 veces 5 clases
Porcentaje de sentidos bien clasificados en el segundo nivel de clustering para la aproximación con esquemas de función y categoría que ocurren más de 10 veces. 12 clases
Pendiente… • Decidir el mejor clasificador • Reconsiderar la clasificación en función de los resultados del clasificador? • Compactar clases? evaluación • WSD automática sobre SenSem • Aplicación y evaluación de WSD • Aplicación del clasificador • Aplicación del clasificador sobre corpus desambiguados automáticamente adquisición • Estudiar la posible generalización de los vectores (alternancias de diátesis)