210 likes | 311 Views
Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet loff@cst.dk, bente@cst.dk. Udvikling og evaluering af SMT-SMV systemet Afsluttende workshop for SDMT-SMV2-projektet. Evaluering af maskinoversættelse (MT) – nogle vigtige forudsætninger.
E N D
Lene Offersgaard, Bente Maegaard Center for Sprogteknologi, Københavns Universitet loff@cst.dk, bente@cst.dk Udvikling og evaluering af SMT-SMV systemet Afsluttende workshop for SDMT-SMV2-projektet
Center for Sprogteknologi Evaluering af maskinoversættelse (MT) – nogle vigtige forudsætninger • Man kan ikke evaluere MT (eller noget andet, fx en bil) uden at definere den ramme det skal bruges i. • Rammen defineres af faktorer som disse: • Hvorskal MT bruges? (organisatorisk) • fx i envirksomhed- af direktøren, af informationsafdelingen, af oversættelsesafdelingen - eller • til private formål, til forskning, … • Formålet med den oversatte tekst • fx oversætte referater hurtigt til internt brug, oversætte manualer til eksternt brug, oversætte salgsmateriale,… • Teksttype, domæne • Nogle teksttyper og domæner egner sig bedre end andre • De ressourcerder er til stede • Både sprogressourcer og mennesker • Tidsfristerog andre krav • fx om hvor hurtigt oversættelsen skal være klar
Center for Sprogteknologi To forskellige synspunkter på evaluering • Det er ikke blot rammen der bestemmer kriterierne for hvad man er interesseret i ved evalueringen • Udvikleren/lingvisten • Brugeren • Udvikleren/lingvisten taler om hvor mange leksikalske fejl, hvor mange grammatiske fejl, af hvilken type mv. • Formål: forstå systemet, forbedre systemet, - forstå oversættelsens natur • Brugeren er interesseret i, om det kan bruges, hvad det koster, hvad det koster at efterredigere, om det kan hjælpe til at levere varen til tiden mv. • Formål: få forretningen til at løbe rundt
At sætte et evalueringssystem op • Bestemme rammen • Teksttype, domæne • Bestemme evaluatorsynspunktet • Etablere kriterier der • kan bedømmes objektivt (samme resultat hver gang) • faktisk måler det man er interesseret i
Center for Sprogteknologi Projektets kriterier og målemetode – brugerevaluering • Formål: objektiv, relevant evaluering • Oversættelseskvalitet • tre kriterier • Usability (er det værd at efterredigere?) • På en skala fra 1 til 3 • 1: For dårlig til at efterredigere, det vurderes at det er hurtigere at oversætte fra input end at efterredigere • 2: Kan redigeres • 3: OK • Adequacy (har den samme betydning?) • På en skala fra 1 til 4 • Fluency (er den grammatisk?) • På en skala fra 1 til 4 • Måle efterredigeringstiden
Værktøj til indtastning og opsummering(udlånt fra Philipp Koehn, Edinburgh Univ.)
Center for Sprogteknologi Metoder til evaluering – automatisk evaluering • Formål: objektiv evaluering • Automatisk evaluering er billigere og hurtigere • Kan automatiske metoder anvendes? – Hvad kan man måle? • Vi har anvendt BLEU som anvendes meget i forskningsverdenen • I BLEU måles afstanden mellem MT-outputtet og en referenceoversættelse/det efterredigerede resultat • Vi har anvendt TER ”Translation Edit Rate”(Snover et al, 2006) • I TER måles hvor mange editeringer der skal foretages før outputtet er magen til referencen/det efterredigerede resultat
Center for Sprogteknologi Teksttypen manualer • Oversættelse fra engelsk til dansk • Arbejdet med tekster fra 5 forskellige typer af tekst • Manualertil: • Videokameraer • Software • DVD-afspillere • Kontormaskiner • Mobiltelefoni • Testmateriale • Udviklingstest: lige meget fra alle fem områder • Evaluering: filer fra et område
Center for Sprogteknologi Oversættelses workflow • Vi har koncentreret os om den statistiske oversætterkerne • Træning af denne kræver parallelle tekster indenfor de ønskede domæner • Forbehandling og efterbehandling kan automatiseres meget mere Engelsk tekst SMT: Statistiske resurser Auto. forbehandling Oversætterkerne Sprogmodel ngram 5 MOSES Decoder Phrase tables Auto. efterbehandling Dansk tekst Efter- redigering
Center for Sprogteknologi Resultater fra tre typer af evaluering Oversætterne har vurderet oversættelseskvaliteten sætning for sætning og givet karakter til hver sætning Automatisk evaluering af forskel mellem MT-outputtet og det efterredigerede resultat Efterredigeringstiden: hvor dyrt er det at gøre teksten færdig?
Center for Sprogteknologi Oversætternes evaluering • Kriterier: • Usability: kan sætningen efterredigeres? • Skalaen er 1-3 • Adequacy: har den samme betydning? • Fluency: er den grammatisk? • Skalaen er 1-4 • Kun for sætninger på over 3 ord
Center for Sprogteknologi Automatisk evaluering vha. BLEU • BLEU: A method for automatic evaluation of Machine Translation, Papineni et al., 2001 • Metoden bygger på at man måler overensstemmelsen mellem det MT-oversatte og referenceoversættelser vurderet på ordniveau. • Her måles for hvor stor forskel der er mellem MT-outputtet og det efterredigerede resultat, skalaen er 0-1 • BLEU for samme tekst oversat af flere oversættere er jf. lit ofte 60-70% • Giver ikke noget billede af hvilke ændringer der skal udføres. • Kan bruges af udvikleren til at udpege problemsætninger.
Center for Sprogteknologi Automatisk evaluering vha. Translation Edit Rate • A Study of Translation Edit Rate with Targeted Human Annotation Snover et al, 2006 • I TER måles hvor mange editeringer der skal foretages før outputtet er magen til referencen/det efterredigerede resultat. • Der måles ”insertions” ”deletion” ”substitutions” ”shifts”&”words shifted” i forhold til antal ord i referencen, skalaen er 0-100% • Kan bruges til at se hvilken type af editering der skal til. • Kan bruges af udvikleren til at udpege problemsætninger • Sent Id | Ins | Del | Sub | Shft| WdSh| NumEr | NumWd | TER • ------------------------------------------------------------------------ • Testfil6131 | 340| 335| 1072| 135| 156| 1882.0| 5862.000| 32.105 • TestfilHS | 106| 108| 370| 62| 74| 646.0| 1870.000| 34.545 • Udvik.test | 662| 1013| 2240| 527| 765| 4442.0| 18414.000| 24.123 • ------------------------------------------------------------------------
Center for Sprogteknologi Efterredigeringstid • Hvor lang tid skal man bruge på at rette teksten? • Tallene her dækker fejlrettelser og justering af store/små bogstaver.
Center for Sprogteknologi Sammenligning med Translation Memory:Usability • Hvordan fordeler matches i TM sig i forhold til evalueringen? • fordeling af sætninger i forhold til “match”-% • fordeling af sætninger i forhold til “usability”-scoring • Selvom 67-81% sætninger giver “no match” i TM, så har vi kun 19-23 % sætninger, der får scoren usability=1.
Center for Sprogteknologi Eksempler på oversættelser og demo http://192.38.108.139/SDMT/SMV/php/smtdemo.php SMV Engelsk: Enter the emergency number, then press the call key. The wireless device described in this guide is approved for use on the EGSM 850, 900, 1800 and 1900 networks. Automatisk oversættelse: Indtast alarmnummeret, og tryk derefter på tasten opkald. Den trådløse enhed, der beskrives i denne brugervejledning, er godkendt til brug i egsm 850, 900-, 1800 og 1900-netværk. Efterredigeret tekst: Indtast alarmnummeret, og tryk derefter på tasten Ring op. Den trådløse enhed, der beskrives i denne brugervejledning, er godkendt til brug i EGSM 850-, 900-, 1800- og 1900-netværk.
Center for Sprogteknologi Eksempler på oversættelser og demo • Engelsk: • This applies to your device but also to any enhancements marked with this symbol. • Press the end key as many times as needed to clear the display and return to the start screen. • Automatisk oversættelse: • Dette gælder for din enhed men også til billedforbedringer markeret med dette symbol. • Tryk slutdatoen indtaste så mange gange, det er nødvendigt for at rydde displayet og tilbage til startskærmen. • Efterredigeret tekst: • Dette gælder selve enheden, men også ekstraudstyr, som er mærket med dette symbol. • Tryk på tasten Afslut så mange gange, det er nødvendigt for at rydde displayet og returnere til startskærmen.
Center for Sprogteknologi Erfaringer fra udviklingen -1 SMV2-projektet har givet en mulighed for direkte samarbejde mellem forskere og virksomheder: virkelige data: både til træning og til test oversætternes evaluering og efterredigering Tekstmaterialet er opdelt i forskellige emneområder/domæner Typisk vil man gerne have meget tekst Blanding af emneområder giver uønsket variation i oversættelser Med lille domæne-tekstmængde fås Fokus har været på kernen i oversættelsesprocessen Fremtidige insatsområder for kernen: Færre kongruensfejl opnås vha. øget brug af lingvistisk viden Bedre hvis visse xml-tags kan udgøre en konstituent i sætningen Øvrige forbedringer: Ballanceret brug af data fra forskellige emneområder Mere data
Center for Sprogteknologi Erfaringer fra udviklingen -2 • Integration i virksomhedens workflow kræver: • Parallelle tekster af god kvalitet til opbygning af de statistiske ressourcer, helst flere mill. ord • grupperet i domæner • Hjælpeværktøj uden om kernen til: • Løbende opdatering af de statistiske ressourcer Engelsk tekst SMT: Statistiske resurser Auto. forbehandling Oversætterkerne Sprogmodel ngram 5 MOSES Decoder Phrase tables Auto. efterbehandling Dansk tekst Efter- redigering
Center for Sprogteknologi Brug af MOSES (Koehn et al. 2007) Moses er open-source software til træning af “phrase tables” og til oversættelse af tekster http://sourceforge.net/projects/mosesdecoder Sprogmodellen kan også trænes ved brug af open-source sw. MOSES giver mulighed for anvende phrase-tables og sprogmodeller, der er ikke blot baserer sig på ord, men også kan omfatte part-of-speech, morfologi osv. Vi har udnyttet det under opbygning af phrase-tables, kan udnyttes langt mere…
Center for Sprogteknologi Opsummering – Statistisk MT • En statistisk oversættelseskerne er et opnåeligt aktiv for oversættelsesvirksomheder • bygges på firmaets egne tekstressourcer og afspejler dermed firmaets sprogpolitik • er ikke omkostningstung i oprettelse • kan oprettes for nye domæner og nye sprogkombinationer • kernen i det demonstrerede system er open-source • integration med TM vil give ekstra gevinst