280 likes | 440 Views
SenSemCat : Corpus de la lengua catalana anotado con información morfológica, sintáctica y semántica. Ana Fernández Montraveta (U. Autònoma de Barcelona) Glòria Vázquez (U. Lleida) M. Elena Beà (U. Lleida). Seminari sobre Tractament Automàtic del Llenguatge (TAL) Barcelona 2011.
E N D
SenSemCat: Corpus de la lengua catalana anotado con información morfológica, sintáctica y semántica Ana Fernández Montraveta (U. Autònoma de Barcelona) Glòria Vázquez (U. Lleida) M. Elena Beà (U. Lleida) Seminari sobre Tractament Automàtic del Llenguatge (TAL) Barcelona 2011 26è Congrés Internacional de Lingüística i Filologia Romàniques, València 2010
Objetivo Construcción de un corpus anotado para el catalán con información sobre la semántica oracional
Marco general • Español: Corpus periodístico y literario • Anotado: morfología, sintaxis y semántica • Nivel: palabra, sintagma y oración • Léxico verbal asociado al corpus • Énfasis: semántica de la oración • Construcción • Aspectualidad • Modalidad
Motivación • Aportación del primer corpus anotado del catalán con información semántica de la oración: • Construcción • Aspectualidad • Modalidad • Polaridad Revisión (corpus anotados –no lenguaje oral): • Anotación morfológica: categorías y lemas • Anotación sintáctica: sintagmas, funciones, dependencias • Anotación semántica: • Sentidos verbales y nominales • Constituyentes: roles semánticos, correferencia • Oración: construcción pasiva
Motivación • Factibilidad de la tarea: • Reutilitzación de recursos: Adaptación de la infraestructura creada para el SenSEm español a un formato multilingüe. • Similitud y gran afinidad estructural de español y catalán
Metodología SenSemCat • Léxico verbal inicial: • 1.1 Informática: • Reconversión de la estructura de la base de datos léxica (de monolingüe a plurilingüe) • Editor para el léxico: permite la introducción de las traducciones del catalán a los sentidos en español. • Hipertextualidad entre las entradas de las dos lenguas.
Metodología SenSemCat Figura 1: editor de sentidos
Metodología SenSemCat Figura 2. Entrada léxica del sentido acordar 1 (español).
Metodología SenSemCat 1.2 Lingüística: • Traducción de los verbos al catalán • Traducción de las definiciones • Ampliación de los sentidos del catalán con sinónimos
Metodología SenSemCat EXEMPLE:36386- ¿Gusta usted pasar, caballero?.34853Cuando gusten vuestras mercedes
Metodología SenSemCat • Corpus (periodístico): • 2.1 Informática: Remodelación de las herramientas para la anotación de las frases del catalán y su consulta: • Reestructuración de la base de datos del corpus para el almacenamiento multilingüe. • Reelaboración de la interfazde anotación: • Inclusión de un módulo de conexión con el traductor de Google • Incorporación del espacio de edición manual de la traducción • Incorporación del espacio de edición manual de la anotación • Reelaboración de la interfaz de consulta externa del corpus: http://grial.uab.es/tools/buscador/
Metodología SenSemCat • 2.2 Lingüística: a) Traducción de las oraciones: • Traducción automática: Google • Corrección manual de la traducción: • La mayoría de los errores vienen motivados por las diferencias existentes entre las lenguas • Ortográficos: apóstrofes, ele geminada, etc. • Morfológicos: posesivos, tiempo perfecto perifrástico • Léxicos • Sintácticos: preposiciones, pronombres clíticos • Estructurales: problemas de alineación • Algunos no tienen explicación aparente
Ortografía • Apostrofación • O no la hace • O laa hace de forma incorrecta
Ortografía • Ele geminada (l·l)
Morfología • Formas verbales
Léxico • Lemas Obligación: Español: tener+que+infinitivo Catalán : haver+de+infinitivo Haber haver-hi
Sintácticos • Para que
Sintácticos • Al/en: Español: al + infinitivo Catalán: en +infinitivo
Problemas de alineación: limitaciones del editor • Alineación a nivel de palabra: • Al pasar de 2 a 1 elemento: el editor no permite unir dos campos del español a uno catalán • Alineación a nivel de sintagma: más graves • Al pasar de 0 a 1 elemento: el editor no permite añadir campos nuevos al catalán • Cambios de orden: el editor no permite cambiar el orden respecto al español
Alineación a nivel de palabra: de 1 a 2 elementos • Posesivos falta exemple
Alineación a nivel de sintagma: de 0 a 1 elemento • Posar l’exemple del “estudia allí” Problema grave: el elemento coincide con un constituyente y requiere anotación
Alineación a nivel de sintagma: cambio de orden Aquí jo trauria la foto i posaria la frase del castellà (sencera, no un fragment) i la traducció que hauria de ser en català pq es vegi el context i el canvi d’ordre millor
MetodologíaSenSemCat 2.2 Lingüística: Anotación de las oraciones: • Morfología: Freeling Catalán • Sintaxis y semántica de los constituyentes: • Herencia directa del español • Corrección según los cambios de la traducción respecto a las estructuras del español • Anotación nueva de los elementos incluidos • Semántica de la oración: herencia directa del español (en principio, algún cambio de construcciones pronominales vs. no pronominales) caerse vs. caure
Cambiar la anotación • SP SN
Anotar nuevos elementos • Pronombres débiles: