140 likes | 307 Views
Angol-magyar statisztikai gépi fordító rendszer minőségének javítása. Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic. Tartalom. Statisztikai gépi fordítás
E N D
Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic
Tartalom • Statisztikai gépi fordítás • Bevezetés • Szótár hozzáadása a korpuszhoz • Hibridizáció • Cigány-magyar SMT
SMT formális leírása • É=argmax P(E|F) = argmax P(E)*P(F|E) • Zajos csatorna modell három komponensből áll: • Nyelvi modell (folyékonyság) • Fordítási modell (tartalom-hűség) • Dekódoló • É: a legjobb fordítás • E: angol mondat (cél nyelv) • F: idegen mondat (forrás nyelv)
Felhasznált keretrendszerek • LitMag (Hunglish) korpusz • 654 939 mondat • SMT keretrendszer: • Nyelvi modell: SRILM • Fordítási modell: IBM modellek • Dekódoló: MOSES
Kiértékelés • BLEU = BiLingualEvaluationUnderstudy • A javaslat az IBM-től származik (Papineni és mtsai, 2002) • A fő gondolat: • Szavak pontos illeszkedése (PONTOSSÁG) • Illeszkedés egy referenciafordításra • Szópontosság-alapú „helyesség”-számítás • n-gram-pontosság alapú „folyamatosság”-számítás (n=1,2,3,4) • Semmi fedéssel kapcsolatos szám, ui. nehéz a többszörös referenciák miatt • A fedés hiányzó szerepének ellensúlyozására bevezetik a BP-t (BrevityPenalty = rövidségi büntetés) • A végső szám az n-gram-eredmények súlyozott átlaga (a hasonló hosszúságú szerkezetek: mondatok, tagmondatok, szószerkezetek, frázisok külön-külön kiszámolt súlyozott átlaga) • Nagy teszthalmazon együttes eredmény
Szótár hozzáadása a korpuszhoz • Szótár: • 344 924 mondat
További hibridizáció • JOSHUA • Környezetfüggetlen nyelvtan [S] ||| [X,1] ||| [X,1] ||| 0 0 0 [S] ||| [S,1] [X,2] ||| [S,1] [X,2] ||| 0.434294482 0 0 tudta , hogy nem volna béke , ha utazásai közben állandóan az a gondolat , hogy boldogtalan volt .
JOSHUA rendszer eredményei • Az eredmény javulása az egyszerű szabályok ellenére Angol referenciamondat: " for a little while only , " said the voice quietly . Magyar referenciamondat: - csak egy kis ideig - mondta a hang csendesen . Alaprendszer fordítása: - egy darabig csak - mondta a hang . JOSHUA rendszer fordítása: - csak egy kis ideig nyugodtan - mondta a hang .
Cigány-magyar SMT • Eredmény: • Sokkal magasabb BLEU • Olvashatóbb, érthetőbb fordítás • Hasonló morfológiai gazdagságú nyelvpárok • Korpusz: • Vesho-Farkas-féle lovári nyelvű Újszövetség • Káldi-féle (Neovulgáta) magyar Újszövetség
Példamondat (cigány-magyar) • Cigány referenciamondat: le but manusha pale telesharadinepengegadapodrom , kavera pale kranzhiphagrenastele pa kashthajpodromrispisarnaslen . • Magyar referenciamondat: a hatalmastömegpedigleterítetteruháitazútra , mások meg ágakatvagdostak a fákrólésazútraszórták . • MOSES fordítás: a néppedig le terítettékruháikatazúton , másokpedigágakatphagrenas le a fa , ésazútonrispisarnaslen . • JOSHUA fordítás: a néppedig le terítettékruháikatazúton , másokpedigágakatphagrenas le a faésazútonrispisarnaslen .
Összefoglalás • Angol-magyar SMT rendszer minőségének javítása szótár hozzáadásával • Angol-magyar SMT rendszer minőségének javítása hibridizációval • Létrehoztam egy cigány-magyar statisztikai gépi fordító rendszert
Köszönöm a figyelmet! laklaja@digitus.itk.ppke.hu