1 / 23

Guillem Massó Sanabre Director: Toni Badia Cardús

Tractament de morfemes de la llengua de signes catalana en un sistema estadístic de traducció automàtica. Guillem Massó Sanabre Director: Toni Badia Cardús Doctorat en Comunicació Lingüística i Mediació Multilingüe Departament de Traducció i Interpretació Universitat Pompeu Fabra. Índex.

odetta
Download Presentation

Guillem Massó Sanabre Director: Toni Badia Cardús

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tractament de morfemes de la llengua de signes catalana en un sistema estadístic de traducció automàtica Guillem Massó Sanabre Director: Toni Badia Cardús Doctorat en Comunicació Lingüística i Mediació Multilingüe Departament de Traducció i Interpretació Universitat Pompeu Fabra

  2. Índex • Introducció: LS i TA • Característiques de la recerca: • Dades • Experiments • Resultats • Conclusions

  3. Estructura dels signes • Configuració • Orientació • Localització • Moviment • sentit • trajectòria • mode • Trets no manuals • associats al signe • morfològics • prosòdics • Simultaneïtat de trets

  4. Problemes de representació • Manca d’escriptura normalitzada • Diversitat de sistemes de transcripció: ______________t ______________________s/n • glosses: LLIBRE IX-2 HAVER • SignWriting: • HamNoSys: • SEA: sc òcreb • ...

  5. Escassetat de recursos • Textos: • pràcticament inexistents • Corpus: • diversos projectes en curs (ASL, AUSLAN, BSL, NGT...) • normalment amb objectius lingüístics concrets • no comparables en mida als de LO • Documents de referència (diccionaris, gramàtiques...): • escassos i bastant limitats • no integrables en sistemes de processament lingüístic • Eines de PLN (segmentadors, etiquetadors...): • inexistents

  6. Desavantatges de la comunitat sorda • Baix nivell de lectoescriptura • Falta d’accés a la informació en la seva llengua • Problemes de comunicació amb la comunitat oient

  7. Aplicacions de la TA en LS • Reducció de les barreres de comunicació i accés a la informació • Eina de treball per a intèrprets • Recerca lingüística • No substitueix els intèrprets professionals

  8. Esquema d’un sistema complet de TA per a LS ) Reconeixement de la parla Traducció automàtica Síntesi dels signes N   Síntesi de la parla Reconeixement dels signes O I Corpus Diccionaris Gramàtiques Lexicons

  9. Enfocaments en TA • Basat en regles • Avantatges: • no necessiten recursos extensos • sistemes robustos per a dominis restringits • Inconvenients: • major dedicació • poc escalables • Mètodes empírics (estadístics, basats en exemples) • Avantatges: • escalabilitat • menor dedicació • Inconvenients: • necessiten un mínim de dades

  10. TA estadística per a LS • RWTH AachenUniversity (Stein, Bungeroth & Ney, 2006) • Preprocessament i postprocessament morfosintàctic • Dublin City University (Morrissey & Way, 2007) • TA basada en exemples • Sense informació morfosintàctica • Aachen-Dublin (Stein et al., 2007; Morrissey et al., 2007) • Combinació TAE - TABE • Reflexions sobre trets morfosintàctics • National ChengKungUniversity, Taiwan (Su & Wu, 2009) • Treebank, diccionari bilingüe, memòria de traducció • Conversió d’estructura sintàctica amb rols temàtics de LO a LS • Universidad Politècnica de Madrid (San-Segundo et al., 2008) • Reconeixement de la parla • Comparació sistema basat en regles i estadístic • Aachen-Madrid (D’Haro et al., 2008) • Millora del model de llenguatge del la LS amb freqüències de la LO en la Web

  11. Característiques de la recerca • Traducció de Català a LSC • Unidireccional • De text a text • Corpus paral·lel • Domini restringit: informació meteorològica (www.meteocat.cat) • Corpus reduït: 153 oracions d’entrenament i 46 de test • Anotació amb iLex • Ús de glosses per a la LSC, diferenciació de morfemes • Lematització i etiquetatge del català • Sistema de TA Moses • Sistema estadístic • Codi obert • Models factorials • Objectius • Millora de resultats amb l’ús d’informació morfològica bàsica • Representació de morfemes en el sistema de TA

  12. Anàlisi del corpus en català i factorització del text • CatCG (www.glicom.upf.edu/projectes/catcg) no|no|d4 es|se|re descarta|descartar|v alguna|algun|en precipitació|precipitació|n5 feble|feble|jq i|i|cc aïllada|aïllat|jq

  13. Enregistrament i anotació del corpus en LSC

  14. Textos en LSC

  15. Corpus paral·lel • Català: no|no|D4 es|se|REdescarta|descartar|Valguna|algun|EN precipitació|precipitació|N5 feble|feble|JQi|i|CCaïllada|aïllat|JQ • LSC (grup 1): TAMBÉ|TAMBÉ PLUJA:dr:s|PLUJA DÈBIL|DÈBIL PLUJA:dr:s:...|PLUJA • LSC (grup 2): TAMBÉ|glossPLUJA|glossdr|mouths|movementDÈBIL|glossPLUJA|glossdr|mouths|movement ...|movement

  16. Característiques del corpus

  17. Procés de traducció • Creació dels models de llenguatge: • un per a cada factor de la LSC • basat en trigrames • amb totes les dades (entrenament + test) • Entrenament dels models de traducció: forma  forma / forma + factor lema  forma / forma + factor forma + lema  forma / forma + factor lema + cat.  forma / forma + factor forma + lema + cat.  forma / forma + factor • Afinament del models de traducció: • amb el conjunt del corpus d’entrenament • Traducció del corpus de proves • Avaluació: • NIST i BLEU

  18. Avaluació automàtica

  19. Avaluació manual • Traduccions avaluades: forma  forma / forma + factor forma + lema + cat.  forma / forma + factor • 27 oracions correctes en tots els casos: • vistes al corpus d’entrenament • 10 o menys paraules • 19 oracions amb resultats diferents: • avaluades de l’1 (incorrecta) al 5 (correcta) • puntuació mitjana per oració

  20. Avaluació manual

  21. Exemples de traducció Origen: són probables algunesprecipitacions febles i disperses Referència: ALGUN PLUJA:c:s PERÒ DÈBIL PLUJA:c:s:... Grup 1 FF DE-SOBTE PLUJA DÈBIL PLUJA:dr:s:... 4 F+L+CatF PLUJA DÈBIL PLUJA:dr:s:... 5 FF+Fact DÈBIL PLUJA:dr:s:... 4 F+L+CatF+Fact TAMBÉ PLUJA:dr:s:... DÈBIL 5 Grup 2 FF TAMBÉ s ... 1 F+L+CatF ... PLUJA c s 2 FF+Fact PLUJA c s 3 F+L+CatF+Fact PLUJA PLUJA DÈBIL PLUJA c s 4

  22. Exemples de traducció Origen: al final del dia augmentarà la nuvolositat Ref.: FINAL DIA MATÍ-TOT NÚVOL VENIR MÉS2:+> NÚVOL:c Grup 1 FF FINAL DIA MATÍ-TOT NÚVOL 4 F+L+CatFFINAL DIA MATÍ-TOT NÚVOL FINS 3 FF+FactFINAL DIA MATÍ-TOT NÚVOL MÉS2 5 F+L+CatF+FactFINAL DIA MATÍ-TOT NÚVOL MÉS2 5 Grup 2 FF ÉS TOCA ÉS DIA MÉS2 POBLE 1 F+L+CatFFINAL DIA ÉS ZONA FINS TARDA NÚVOL s 2 FF+FactFINAL DIA MATÍ-TOT +> NÚVOL c 3 F+L+CatF+FactFINAL DIA MATÍ-TOT TARDA NÚVOL c 4

  23. Conclusions • La informació lingüística millora els resultats • En la LS, pot ser informació bàsica • Els morfemes de la LS poden ser tractats de manera eficient i simple • És millor tractar formes flexionades amb morfemes incorporats que morfemes independents

More Related