1 / 47

Building Machine Translation Systems for Indigenous Languages

Building Machine Translation Systems for Indigenous Languages. Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University of Pittsburgh) roa6@pitt.edu Lori Levin (Carnegie Mellon University) lsl@cs.cmu.edu. Cooperación. Lingüistas computacionales

malory
Download Presentation

Building Machine Translation Systems for Indigenous Languages

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) aria@cs.cmu.edu Roberto Aranovich (University of Pittsburgh) roa6@pitt.edu Lori Levin (Carnegie Mellon University) lsl@cs.cmu.edu

  2. Cooperación • Lingüistas computacionales (Language Technologies Institute, Carnegie Mellon University) • Comunidades aborígenes de América Latina (comunidad mapuche de Chile y comunidad quechua de Perú).

  3. El Projecto Avenue • Desarrollar tecnologías lingüísticas para lenguas con escasos recursos en forma rápida y accesible económicamente.

  4. Tecnologías lingüísticas • Bases de datos en formatos electrónicos estandarizados. • Diccionarios electrónicos. • Correctores ortográficos. • Analizadores morfológicos automáticos. • Sistemas de traducción automática.

  5. Cooperación institucional (mapudungún) • Las instituciones que han cooperado en la producción de tecnologías lingüísticas para el mapudungún son: • El Projecto Avenue. • El Ministerio de Educación de Chile. • El Instituto de Estudios Indígenas, Universidad de la Frontera (UFRO).

  6. El mapudungún • Lengua aglutinante y polisintética hablada en el centro-sur de Chile y Argentina. • 900.000 mapuches. • Al menos 300.000 hablantes.

  7. Sistema de traducción mapudungún-español basado en reglas Analizador morfológico mapuche Input: oración/frase/palabra mapuche Grámatica de transferencia/ Léxico de transferencia Input segmentado morfológicamente/ rasgos gramaticales especificados Sistema de transferencia Léxico mapuche (raíces y morfemas) Generador morfológico español Estructura gramatical equivalente en español (palabras no flexionadas + rasgos gramaticales) Output: oración/frase/palabra española Léxico español (palabras flexionadas) (Universidad Politécnica de Barcelona)

  8. Un ejemplo 83: sl: pe-rke-fi-ñ Maria ver-REPORT-3pO-1pSgS/IND tl: DICEN QUE LA VI A MARÍA tree: <((SBAR,1 (LITERAL "DICEN") (LITERAL "QUE") (S,3 (VP,3 (VBAR,6 (CLITIC,4:0 "LA") (TENSEBAR,1 (V,4:1 "VI") ) ) (LITERAL "A") (NP,4 (NBAR,2 (N,2:5 "MARÍA") ) ) ) ) ) )>

  9. Segmentación morfológica(programa desarrollado por Carlos Fasola) ((REPORTATIVE +) (PERSON 1) (NUMBER SG) (MOOD IND) (OBJECT ((PERSON 3)))) pe-rke-fi-ñ ver-REPORT-3O-1sS/IND

  10. Gramática de transferencia (1) • Formalismo desarrollado para manipular rasgos gramaticales (transferir, insertar, transformar). • Itemes léxicos → constituyentes sintácticos. • Constituyentes sintácticos → constituyentes sintácticos. • Lengua fuente → lengua meta.

  11. Ejemplo de regla:pl N con pluralizador pu (pu ruka::casas) {NBar,1} ;;identificador NBar::NBar : [PART N] -> [N] ;;especificación de los ;;constituyentes ( (X2::Y1) ;; alineación ((X1 number) =c pl) ;;restricción ((X0 number) = (X1 number)) ;; transferencia ((Y0 number) = (X0 number)) ;; de rasgos ((Y1 number) = (Y0 number)) ((Y0 gender) = (Y1 gender))) )

  12. Representación arbórea NBar(X0) NBar(Y0) PART(X1) N(X2) N(Y1) pu ruka casas num num gen num

  13. Reglas que se aplican en perkefiñ • Problemas a resolver: • 1. Concatenación de los sufijos • 2. Determinar el tiempo en mapudungún y transferirlo al español • 3. Insertar el clítico en la lengua meta • 4. Insertar la preposición a en la lengua meta • 5. Insertar el verbo modal y el subordinante que en la lengua meta

  14. Estructuras comparadas O O FV FV V FN V O pe-rke-fi-ñ Maria S VP CL-V FP P NP dicen que la vi a María

  15. Concatenación de sufijos (1) {VSuffG,1} VSuffG::VSuffG : [VSuff] -> [“ “] ( (X0 = X1) ) VSuffG VSuff -rke (+ reportativo) rasgos

  16. Concatenación de sufijos (2) {VSuffG,2} VSuffG::VSuffG : [VSuffG VSuff] -> [""] ( (X0 = X1) (X0 = X2) ) VSuffG VSuffG VSuff -rke -fi (reportativo) (3pO) rasgos rasgos

  17. Concatenación de sufijos (3) VSuffG VSuffG VSuff rke-fi- -ñ (reportativo, 3pO) (1pSgS/ind)

  18. El tiempo en mapudungún (1) • Tiempo no marcado + aspecto léxico no marcado + aspecto externo no marcado → pasado (kellu-n::ayudé::(I)helped) • Tiempo no marcado + aspecto léxico estativo → presente (niye-n::poseo::(I)own)

  19. El tiempo en mapudungún (2) • Tiempo no marcado + aspecto léxico no marcado + aspecto externo habitual → presente (kellu-ke-n::ayudo::(I)help) • Tiempo marcado (pe-a-n::veré::(I)will see)

  20. Tiempo pasado {TenseBar,1} TenseBar::TenseBar : [V VSuffG] -> [V] ( (X1::Y1) ((X2 tense) = *UNDEFINED*) ((X1 lexicalaspect) = *UNDEFINED*) ((X2 aspect) = (*NOT* habitual)) ((X0 tense) = past) (X0 = X1) (X0 = X2) (Y0 = Y1) )

  21. Inserción del tiempo TenseBar V VSuffG tense

  22. Inserción del clítico (1) {VBar,6} VBar::VBar : [TenseBar] -> [CLITIC V] ( (X1::Y2) ((X1 object person) =c 3) ((X0 person) = (X1 person)) ((X0 number) = (X1 number)) ((X0 object person) = (X1 object person)) ((X0 object number) = (X1 object number)) ((Y0 objmarker) = Y1) ((Y0 person) = (X0 person)) ((Y0 number) = (X0 number)) ((Y0 object person) = (X0 object person)) ((Y0 object number) = (X0 object number)) ((Y2 person) = (Y0 person)) ((Y2 number) = (Y0 number)) ((Y1 person) = (Y0 object person)) ((Y1 number) = (Y0 object number)) ((Y1 type) =c personal) ((Y1 case) =c acc) )

  23. Inserción del clítico (2) S AGR O AGR VBar VBar TenseBar CL V la vi V VSuffG pe rke-fi-ñ S AGR O AGR O AGR S AGR S AGR O AGR

  24. Inserción de la preposición (1) ; transitive VP (human object) ; pefiñ Maria::la vi a María {VP,3}; transitive VP (human object) VP::VP [VBar NP] -> [VBar "a" NP] ( (X1::Y1) (X2::Y3) ((X2 type) = (*NOT* personal)) ((X2 human) =c +) (X0 = X1) ((X0 object) = X2) (Y0 = X0) ((Y0 object) = (X0 object)) (Y1 = Y0) (Y3 = (Y0 object)) ((Y1 objmarker person) = (Y3 person)) ((Y1 objmarker number) = (Y3 number)) ((Y1 objmarker gender) = (Y3 gender)) )

  25. Inserción de la preposición (2) VP VP VBar NP VBar “a” NP perkefiñ Maria la vi a María agr

  26. Inserción del verbo modal y el subordinante (1) {Sbar,1} Sbar::Sbar [S] -> ["Dicen" "que" S] ( (X1::Y3) ((X1 reportative) =c +) (X0 = X1) (Y0 = Y3) )

  27. Inserción del verbo modal y el subordinante (2) SBar SBar S S VP VP VBar NP VBar “a” NP perkefiñ Maria “dicen” “que” la vi a María

  28. Generador morfológico español(Universidad Politécnica de Cataluña) • Léxico de formas flexionadas del español con todos sus rasgos especificados • POS, type, gender, number. • Ejemplo: alto#AQ0FP0 altas alto#AQ0FS0 alta alto#AQ0MP0 altos alto#AQ0MS0 alto

  29. Algunos problemas de traducción (1) • Denominador común: construcciones sintéticas vs. construcciones analíticas • Concordancia inversa: pe-e-n ver-INV(2pSgO)-1pSg/IND ME VISTE

  30. Algunos problemas de traducción (2) • Verbos deadjetivales fey küme-nge-y 3sPRO bueno-VERB-3pSg/IND ELLA ES BUENA ÉL ES BUENO • Voz pasiva Kuan pe-nge-y Juan ver-PAS-3pSg/IND JUAN FUE VISTO

  31. Algunos problemas de traducción (3) • Aspecto progresivo petu pe-yu DUR ver-1pDual/IND ESTAMOS VIENDO • Negación pe-la-n ver-NEG-1pSg/IND NO VI

  32. Algunos problemas de traducción (4) • Problemas adicionales: • Verbos denominales, causativos, aplicativos, etc.

  33. Un ejemplo: voz pasiva S AGR tense VBar VBar TenseBar V V fue visto/a V VSuffG ayuda ngey S AGR tense S AGR tense tense S AGR

  34. Desarrollo de la gramática • Aproximadamente 100 reglas. • 60 sufijos en el léxico de transferencia. • Traducción de palabras complejas, frases y oraciones declarativas simples.

  35. Próximos pasos • Desarrollar reglas para oraciones interrogativas. • Testear la gramática con diálogos simples.

  36. ¿Preguntas?

  37. Base de datos electrónica (1) • Base de datos paralela en formato electrónico (200.000 palabras de texto y 120 horas de transcripción de conversación). • Es una base de datos paralelos (en mapudungún y español). • La base de datos textual está constituida por textos históricos y periodísticos actuales (periódico Nuestros Pueblos, CONADI, Chile).

  38. Base de datos electrónica (2) • Las conversaciones están limitadas al campo semántico de la salud primaria y preventiva. • Las conversaciones reflejan distintos dialectos del mapudungún (lafkenche, nguluche, pewenche). • Todos los participantes son hablantes nativos, de entre 21 y 75 años de edad.

  39. Base de datos electrónica (3) • Las grabaciones fueron convertidas en archivos wave. • Convención ortográfica de 28 letras desarrollada por el IEI-UFRO (alfabeto es compatible con los símbolos disponibles en los teclados de computadora en español).

  40. Base de datos electrónica (4) Fragmento de una conversación: I. Mantención de la salud y enfermedades 1. Chumkeymi tami külfünküleal. (Cómo hace para mantenerse as de bien.) 2. Rüfkünungey am tami amulngen kiñe machimew. (Es verdad que el médico lo mandó donde una machi.)

  41. Corrector ortográfico (1) • Prototipo de corrector ortográfico para textos en mapudungún. • Funciona en el entorno OpenOffice, un editor de texto de distribución gratuita disponible en internet (www.openoffice.org) • Subraya los posibles errores y propone un menú de posibles alternativas. También permite incorporar nuevas palabras al diccionario.

  42. Corrector ortográfico (2) • El corrector funciona sobre la base de dos archivos: a. Una lista de raíces (5.234) y palabras (53.094). b. Una lista de grupos de sufijos (1.303) (ejemplo: rke-fi-ñ /REPORT-3pO-1pSg/IND).

  43. e

  44. Diccionarios (1) • Proyecto de diccionario on-line sobre la base de las palabras extraídas de la base de datos oral (IEI-UFRO). • Palabras segmentadas en raíz-grupo de sufijos y con ejemplos de uso.

  45. Diccionarios (2) • Kelluaeteu: kellu-a-eteu.ayudar-futuro-a.mi / /. el que me va a ayudar Katripache tañi kimün tati, peñi, feynga puulu iñche, iñche tañi lipang, “iñche tañi kelluaeteu ta tüfa” pipingeynga (Es conocimiento de la gente de afuera pues, hermano, entonces cuando llegué yo, mi brazo, éste es el que me va a ayudar, decía y decía) nmlch-nmpll1_x_0033_nmpll_00. Ec/Rh/Fc. Ec/ Rh20-12-02.

  46. Analizador morfológico (1) • Desarrollado por Carlos Fasola • El programa segmenta la raíz y el complejo de sufijos y obtiene la información gramatical relevante de cada morfema. • El léxico morfológico contiene aproximadamente 1670 raíces y 105 sufijos.

  47. Analizador morfológico (2) Ejemplo: kofketulayay → kofketu-la-ya-y negación = + tiempo = futuro persona = 3 número = sg modo = indicativo

More Related