230 likes | 387 Views
Tractament de morfemes de la llengua de signes catalana en un sistema estadístic de traducció automàtica. Guillem Massó Sanabre Director: Toni Badia Cardús Doctorat en Comunicació Lingüística i Mediació Multilingüe Departament de Traducció i Interpretació Universitat Pompeu Fabra. Índex.
E N D
Tractament de morfemes de la llengua de signes catalana en un sistema estadístic de traducció automàtica Guillem Massó Sanabre Director: Toni Badia Cardús Doctorat en Comunicació Lingüística i Mediació Multilingüe Departament de Traducció i Interpretació Universitat Pompeu Fabra
Índex • Introducció: LS i TA • Característiques de la recerca: • Dades • Experiments • Resultats • Conclusions
Estructura dels signes • Configuració • Orientació • Localització • Moviment • sentit • trajectòria • mode • Trets no manuals • associats al signe • morfològics • prosòdics • Simultaneïtat de trets
Problemes de representació • Manca d’escriptura normalitzada • Diversitat de sistemes de transcripció: ______________t ______________________s/n • glosses: LLIBRE IX-2 HAVER • SignWriting: • HamNoSys: • SEA: sc òcreb • ...
Escassetat de recursos • Textos: • pràcticament inexistents • Corpus: • diversos projectes en curs (ASL, AUSLAN, BSL, NGT...) • normalment amb objectius lingüístics concrets • no comparables en mida als de LO • Documents de referència (diccionaris, gramàtiques...): • escassos i bastant limitats • no integrables en sistemes de processament lingüístic • Eines de PLN (segmentadors, etiquetadors...): • inexistents
Desavantatges de la comunitat sorda • Baix nivell de lectoescriptura • Falta d’accés a la informació en la seva llengua • Problemes de comunicació amb la comunitat oient
Aplicacions de la TA en LS • Reducció de les barreres de comunicació i accés a la informació • Eina de treball per a intèrprets • Recerca lingüística • No substitueix els intèrprets professionals
Esquema d’un sistema complet de TA per a LS ) Reconeixement de la parla Traducció automàtica Síntesi dels signes N Síntesi de la parla Reconeixement dels signes O I Corpus Diccionaris Gramàtiques Lexicons
Enfocaments en TA • Basat en regles • Avantatges: • no necessiten recursos extensos • sistemes robustos per a dominis restringits • Inconvenients: • major dedicació • poc escalables • Mètodes empírics (estadístics, basats en exemples) • Avantatges: • escalabilitat • menor dedicació • Inconvenients: • necessiten un mínim de dades
TA estadística per a LS • RWTH AachenUniversity (Stein, Bungeroth & Ney, 2006) • Preprocessament i postprocessament morfosintàctic • Dublin City University (Morrissey & Way, 2007) • TA basada en exemples • Sense informació morfosintàctica • Aachen-Dublin (Stein et al., 2007; Morrissey et al., 2007) • Combinació TAE - TABE • Reflexions sobre trets morfosintàctics • National ChengKungUniversity, Taiwan (Su & Wu, 2009) • Treebank, diccionari bilingüe, memòria de traducció • Conversió d’estructura sintàctica amb rols temàtics de LO a LS • Universidad Politècnica de Madrid (San-Segundo et al., 2008) • Reconeixement de la parla • Comparació sistema basat en regles i estadístic • Aachen-Madrid (D’Haro et al., 2008) • Millora del model de llenguatge del la LS amb freqüències de la LO en la Web
Característiques de la recerca • Traducció de Català a LSC • Unidireccional • De text a text • Corpus paral·lel • Domini restringit: informació meteorològica (www.meteocat.cat) • Corpus reduït: 153 oracions d’entrenament i 46 de test • Anotació amb iLex • Ús de glosses per a la LSC, diferenciació de morfemes • Lematització i etiquetatge del català • Sistema de TA Moses • Sistema estadístic • Codi obert • Models factorials • Objectius • Millora de resultats amb l’ús d’informació morfològica bàsica • Representació de morfemes en el sistema de TA
Anàlisi del corpus en català i factorització del text • CatCG (www.glicom.upf.edu/projectes/catcg) no|no|d4 es|se|re descarta|descartar|v alguna|algun|en precipitació|precipitació|n5 feble|feble|jq i|i|cc aïllada|aïllat|jq
Corpus paral·lel • Català: no|no|D4 es|se|REdescarta|descartar|Valguna|algun|EN precipitació|precipitació|N5 feble|feble|JQi|i|CCaïllada|aïllat|JQ • LSC (grup 1): TAMBÉ|TAMBÉ PLUJA:dr:s|PLUJA DÈBIL|DÈBIL PLUJA:dr:s:...|PLUJA • LSC (grup 2): TAMBÉ|glossPLUJA|glossdr|mouths|movementDÈBIL|glossPLUJA|glossdr|mouths|movement ...|movement
Procés de traducció • Creació dels models de llenguatge: • un per a cada factor de la LSC • basat en trigrames • amb totes les dades (entrenament + test) • Entrenament dels models de traducció: forma forma / forma + factor lema forma / forma + factor forma + lema forma / forma + factor lema + cat. forma / forma + factor forma + lema + cat. forma / forma + factor • Afinament del models de traducció: • amb el conjunt del corpus d’entrenament • Traducció del corpus de proves • Avaluació: • NIST i BLEU
Avaluació manual • Traduccions avaluades: forma forma / forma + factor forma + lema + cat. forma / forma + factor • 27 oracions correctes en tots els casos: • vistes al corpus d’entrenament • 10 o menys paraules • 19 oracions amb resultats diferents: • avaluades de l’1 (incorrecta) al 5 (correcta) • puntuació mitjana per oració
Exemples de traducció Origen: són probables algunesprecipitacions febles i disperses Referència: ALGUN PLUJA:c:s PERÒ DÈBIL PLUJA:c:s:... Grup 1 FF DE-SOBTE PLUJA DÈBIL PLUJA:dr:s:... 4 F+L+CatF PLUJA DÈBIL PLUJA:dr:s:... 5 FF+Fact DÈBIL PLUJA:dr:s:... 4 F+L+CatF+Fact TAMBÉ PLUJA:dr:s:... DÈBIL 5 Grup 2 FF TAMBÉ s ... 1 F+L+CatF ... PLUJA c s 2 FF+Fact PLUJA c s 3 F+L+CatF+Fact PLUJA PLUJA DÈBIL PLUJA c s 4
Exemples de traducció Origen: al final del dia augmentarà la nuvolositat Ref.: FINAL DIA MATÍ-TOT NÚVOL VENIR MÉS2:+> NÚVOL:c Grup 1 FF FINAL DIA MATÍ-TOT NÚVOL 4 F+L+CatFFINAL DIA MATÍ-TOT NÚVOL FINS 3 FF+FactFINAL DIA MATÍ-TOT NÚVOL MÉS2 5 F+L+CatF+FactFINAL DIA MATÍ-TOT NÚVOL MÉS2 5 Grup 2 FF ÉS TOCA ÉS DIA MÉS2 POBLE 1 F+L+CatFFINAL DIA ÉS ZONA FINS TARDA NÚVOL s 2 FF+FactFINAL DIA MATÍ-TOT +> NÚVOL c 3 F+L+CatF+FactFINAL DIA MATÍ-TOT TARDA NÚVOL c 4
Conclusions • La informació lingüística millora els resultats • En la LS, pot ser informació bàsica • Els morfemes de la LS poden ser tractats de manera eficient i simple • És millor tractar formes flexionades amb morfemes incorporats que morfemes independents