210 likes | 370 Views
Kvantitativna metoda za poravnanje reči dvojezičkog korpusa. Aljoša Obuljen Dr Ivan Obradović. Uvod. Problem: za reč izvornog jezika w s , pronaći najbolji prevod u ciljnom jeziku – w e . Šire: za reč izvornog jezika, naći semantički bliske reči ciljnog jezika. Pristup problemu.
E N D
Kvantitativna metoda za poravnanje reči dvojezičkog korpusa Aljoša Obuljen Dr Ivan Obradović
Uvod • Problem: za reč izvornog jezika ws, pronaći najbolji prevod u ciljnom jeziku – we. • Šire: za reč izvornog jezika, naći semantički bliske reči ciljnog jezika.
Pristup problemu • Potrebno je imati poravnat korpus (SE-INTERA) • Preći na leme (srpski obeležen, TreeTagger za engleski) • Za svaku srpsku lemu sortirati engleske reči po rangu. • Cilj: prvorangirana reč je prevod srpske reči.
Priprema podataka • Formirati 2 tekstualna dokumenta – svaki red jedna rečenica, tj. lista lema u toj rečenici. • Dokumenti su poravnati – dve rečenice na istoj poziciji su prevodni ekvivalenti (ili dovoljno blizu).
Statistike nad rečima • Da bi se formirao rang, za svaku reč izvornog jezika, nalaze se njene rečenice. • Formira se lista prevodnih ekvivalenata ovih rečenica. • Broji se pojavljivanje svake reči ciljnog jezika među prevedenim rečenicama – C(x|y), gde je x neka reč ciljnog jezika, a y fiksirana izvorna reč. • Takođe, za svaku reč ciljnog jezika x se računa C(x) – broj pojavljivanja reči x u celom korpusu.
Rangiranje - 1 • Rangiranje se, za fiksirano y, može vršiti sortiranjem po C(x|y) u očekivanju da najbrojnija reč ciljnog jezika ujedno predstavlja i prevod. • Problem: česte reči ciljnog jezika (veznici, članovi, predlozi itd) dolaze na vrh. • Primer, ako tražimo prevod engleske reči crime, kandidati su (podskup INTER-a): • , (75 pojavljivanja) • Jesam (57) • . (50) • U (41) • I ( 39) • Da (35) • Zločin (34) • ... • Vidimo da najčešće reči (i interpunkcija) zauzimaju visoka mesta, ali i korektan prevod.
Rangiranje - 2 • Može se rangirati i po proporciji pojavljivanja – C(x|y) / C(x). • Interpretacija: ako reč najveći deo svojih pojavljivanja “provodi” u prevodnim ekvivalentima, to je dobra indikacija da je povezana sa y. • Problem: Vrlo retke reči ciljnog jezika koje su se slučajno našle u prevodnim ekvivalentima dobijaju visok rang. Reči sa jednim pojavljivanjem dobijaju najviši rang.
Primer – rangiranje • Za rangiranje po proporciji pojavljivanja na istom podskupu INTERA-e imamo za crime: • Post (1/1) • Preovlađivati (1/1) • Ponašati (1/1) • ... • Počiniti (3/4) • Zločin (34/50) • ... • U ovom slučaju, korektan prevod ima još manji rang, ali iz drugačijih razloga.
Rangiranje - 3 • Ipak treba uzeti u obzir i proporcionalnu zastupljenost među “relevantnim” rečima, tj. rečima koje se pojavljuju u prevodnim ekvivalentima. • Time bi se ponovo aktivirao prvobitni problem čestih reči, pa se vrši kombinacija dva faktora.
Rangiranje • Rang se može posmatrati i probabilistički. • Rt – slučajan događaj da je, odabirom iz celog korpusa ciljnog jezika, odabrana “relevantna” reč za fiksiranu reč izvornog jezika y, tj. neka od reči za koju važi C(x|y) > 0. • x – slučajan događaj da je, odabirom iz celog korpusa ciljnog jezika, odabrana reč x. • Ako posmatramo verovatnoće P(x|Rt) i P(Rt|x), primećujemo da se one ocenjuju upravo prvim, odnosno drugim razlomkom u rangiranju za x, redom. • Proizvod ove dve verovatnoće na neki način meri koliko odabir relevantne reči implicira da je to baš x, a koliko odabir baš reči x implicira da je u pitanju relevantna reč za izvornu reč y.
Primer – naprednije rangiranje • Za reč crime, prema ovakvom rangiranju, lista najboljih kandidata izgleda kao: • Zločin, rang=0,0143 • Ratni, rang=0,0086 • Suđenje, rang=0,004 • Počinjen, rang=0,004 • Vojni, rang=0,003 • Civilni, rang=0,002 • Lista ponuđenih prevodnih ekvivalenata ovaj put ima vidna poboljšanja, sa korektnim prevodom na prvom mestu i jakom semantičkom vezom sa ostalim ponuđenim kandidatima. • Napomena: Rezultati su iz malog podskupa INTERA korpusa, koji je korišćen za preliminarno istraživanje uspešnosti ovakve metode.
Posle rangiranja • U opštem slučaju, rangiranje sortira sve ciljne reči u odnosu na rang, za zadato y iz izvornog korpusa. • U našem pristupu, izdvajamo samo prvih 5 kandidata. • Dalja poboljšanja su moguća – da li bilo koji od tih 5 kandidata kroz svoje kandidate (menjajući smer ciljnog i izvornog jezika) vodi nazad na reč y?
Posle rangiranja - 2 • Vidno poboljšanje samog rangiranja je da se pored liste 5 najboljih kandidata (t1, t2, ..., t5) za svakog od njih formira lista njihovih najboljih 5 kandidata (s11, s12, ..., s15, s21, s22, ..., s51, s52, ..., s55). • Pretpostavimo dalje da s13, s32 i s52 odgovaraju polaznoj reči izvornog jezika. • U našem pristupu, reči 2 i 4 u ovom slučaju odbacujemo, a menjamo rang između 1, 3 i 5, dovodeći t3 na prvo mesto, pošto se ona svojim drugim najboljim kandidatom vraća na izvornu reč y.Kandidati 1 i 5 zadržavaju poredak, zbog toga što vode nazad kroz svoje kandidate istog ranga, a prvobitno je 1 imala veći rang od 5. • Ovaj korak eliminacije i permutacije nije kvantitativno zasnovan, već je na lingvističkoj osnovi – ako za neku reč srpskog imamo reč engleskog za koju pretpostavljamo da je dobar prevod, a pritom istom metodom ustanovimo da je ista ta reč dobar prevod te engleske reči, imamo jače uverenje u kvalitet prevoda.
Obrada rezultata • Posmatrali smo samo prvorangirane kandidate prema opisanoj metodi. • Ručno su obeležene sve reči srpskog sa pojavljivanjem od 50 i više puta (2009 reči). • Od preostalih reči, odabrano je po 500 iz sledećih grupa: • 1 pojavljivanje • 2-5 pojavljivanja • 6-20 pojavljivanja • 21-49 pojavljivanja • Ocene koje su dodeljivane su OK/NOK (korektan prevod, nije korektan prevod).
Neki rezultati • Za najfrekventnije srpske reči, 83,08% dobilo je, prema našoj oceni, adekvatan prevod. Reči koje se pojavljuju 50 i više puta čine 87,92% celog korpusa. • Reči koje se pojavljuju 6-20 puta na svom uzorku od 500 reči imale su 52,4% adekvatnih prevoda. • Reči koje se pojavljuju 21-49 puta imale su 61,8% adekvatnih prevoda.
Rezultati - nastavak • Reči sa manjim brojem pojavljivanja dobile su 5 mogućih ocena koje nisu svođene na OK/NOK zbog male zastupljenosti u korpusu. • Ocene: OK / DOK / D / DNOK / NOK • Ocena D obeležava diskutabilnu situaciju, gde DOK i DNOK odražavaju ličnu preferencu, uz diskusiju. • Neke statistike: • Za reči sa jednim pojavljivanjem: 19,6% OK, 4,4% DOK, 0,8% D, 2,8% DNOK, 72,4% NOK. • Za reči sa 2-5 pojavljivajna: 31,2% OK, 3,8% DOK, 4,4% D, 1% DNOK, 59,6% NOK.
Rezultati - nastavak • U prvih 2009 reči bilo je 340 NOK rezultata, koji su obeleženi sa semantičkim ocenama S1-S4, gde je S1 vrlo jaka semantička veza (nedovoljna za OK), S4 nepostojeća semantička veza. • S1 i S2 uglavnom se odnose na delove fraza, česte prideve i ostale semantički bliske reči. • S3 označava parove koji imaju neku vidljivu semantičku vezu. • Statistike za semantički skor: • S1: 17/340 ili 5% • S2: 103/340 ili 30,03% • S3: 57/340 ili 16,76% • S4: 163/340 ili 47,94%
Zaključci • Više od 80% korpusa je pokriveno adekvatnim prevodima. • Skoro 90% korpusa je u nekoj opipljivoj semantičkoj vezi sa najboljim predloženim kandidatom. • Imajući u vidu jednostavnost metode, obećavajući rezultati.
Dalji rad • Modifikacija rangiranja – proizvod dva faktora je zapravo kvadrat njihove geometrijske sredine – probati druge sredine, tipa harmonijsku, težinsku harmonijsku i sl. • Iskoristiti poravnanje u kompletnim paketima za statističko mašinsko prevođenje, tipa Moses, i videti da li poboljšavaju rezultate. • Semantička analiza na osnovu dobijenog poravnanja. • ...
Zanimljivosti • Prilikom obrade rezultata, uočeno je da imenovani entiteti uglavnom korespondiraju sa svojom transkripcijom na ciljni jezik, npr: • Bošnjak – Bosniaks (ali loša lema, množina na ciljnom jeziku) • Službeni – Sluzxbeni (od Službeni glasnik) • Momčilović – Momcyilovicx • Takođe, možda još korisnije, skraćenice: • PDV – VAT • MOR – ILO (International Labour Organisation, Međunarodna Organizacija Rada/radnika) • ...