1 / 21

Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

Kvantitativna metoda za poravnanje reči dvojezičkog korpusa. Aljoša Obuljen Dr Ivan Obradović. Uvod. Problem: za reč izvornog jezika w s , pronaći najbolji prevod u ciljnom jeziku – w e . Šire: za reč izvornog jezika, naći semantički bliske reči ciljnog jezika. Pristup problemu.

jens
Download Presentation

Kvantitativna metoda za poravnanje reči dvojezičkog korpusa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kvantitativna metoda za poravnanje reči dvojezičkog korpusa Aljoša Obuljen Dr Ivan Obradović

  2. Uvod • Problem: za reč izvornog jezika ws, pronaći najbolji prevod u ciljnom jeziku – we. • Šire: za reč izvornog jezika, naći semantički bliske reči ciljnog jezika.

  3. Pristup problemu • Potrebno je imati poravnat korpus (SE-INTERA) • Preći na leme (srpski obeležen, TreeTagger za engleski) • Za svaku srpsku lemu sortirati engleske reči po rangu. • Cilj: prvorangirana reč je prevod srpske reči.

  4. Priprema podataka • Formirati 2 tekstualna dokumenta – svaki red jedna rečenica, tj. lista lema u toj rečenici. • Dokumenti su poravnati – dve rečenice na istoj poziciji su prevodni ekvivalenti (ili dovoljno blizu).

  5. Statistike nad rečima • Da bi se formirao rang, za svaku reč izvornog jezika, nalaze se njene rečenice. • Formira se lista prevodnih ekvivalenata ovih rečenica. • Broji se pojavljivanje svake reči ciljnog jezika među prevedenim rečenicama – C(x|y), gde je x neka reč ciljnog jezika, a y fiksirana izvorna reč. • Takođe, za svaku reč ciljnog jezika x se računa C(x) – broj pojavljivanja reči x u celom korpusu.

  6. Rangiranje - 1 • Rangiranje se, za fiksirano y, može vršiti sortiranjem po C(x|y) u očekivanju da najbrojnija reč ciljnog jezika ujedno predstavlja i prevod. • Problem: česte reči ciljnog jezika (veznici, članovi, predlozi itd) dolaze na vrh. • Primer, ako tražimo prevod engleske reči crime, kandidati su (podskup INTER-a): • , (75 pojavljivanja) • Jesam (57) • . (50) • U (41) • I ( 39) • Da (35) • Zločin (34) • ... • Vidimo da najčešće reči (i interpunkcija) zauzimaju visoka mesta, ali i korektan prevod.

  7. Rangiranje - 2 • Može se rangirati i po proporciji pojavljivanja – C(x|y) / C(x). • Interpretacija: ako reč najveći deo svojih pojavljivanja “provodi” u prevodnim ekvivalentima, to je dobra indikacija da je povezana sa y. • Problem: Vrlo retke reči ciljnog jezika koje su se slučajno našle u prevodnim ekvivalentima dobijaju visok rang. Reči sa jednim pojavljivanjem dobijaju najviši rang.

  8. Primer – rangiranje • Za rangiranje po proporciji pojavljivanja na istom podskupu INTERA-e imamo za crime: • Post (1/1) • Preovlađivati (1/1) • Ponašati (1/1) • ... • Počiniti (3/4) • Zločin (34/50) • ... • U ovom slučaju, korektan prevod ima još manji rang, ali iz drugačijih razloga.

  9. Rangiranje - 3 • Ipak treba uzeti u obzir i proporcionalnu zastupljenost među “relevantnim” rečima, tj. rečima koje se pojavljuju u prevodnim ekvivalentima. • Time bi se ponovo aktivirao prvobitni problem čestih reči, pa se vrši kombinacija dva faktora.

  10. Rangiranje • Rang se može posmatrati i probabilistički. • Rt – slučajan događaj da je, odabirom iz celog korpusa ciljnog jezika, odabrana “relevantna” reč za fiksiranu reč izvornog jezika y, tj. neka od reči za koju važi C(x|y) > 0. • x – slučajan događaj da je, odabirom iz celog korpusa ciljnog jezika, odabrana reč x. • Ako posmatramo verovatnoće P(x|Rt) i P(Rt|x), primećujemo da se one ocenjuju upravo prvim, odnosno drugim razlomkom u rangiranju za x, redom. • Proizvod ove dve verovatnoće na neki način meri koliko odabir relevantne reči implicira da je to baš x, a koliko odabir baš reči x implicira da je u pitanju relevantna reč za izvornu reč y.

  11. Primer – naprednije rangiranje • Za reč crime, prema ovakvom rangiranju, lista najboljih kandidata izgleda kao: • Zločin, rang=0,0143 • Ratni, rang=0,0086 • Suđenje, rang=0,004 • Počinjen, rang=0,004 • Vojni, rang=0,003 • Civilni, rang=0,002 • Lista ponuđenih prevodnih ekvivalenata ovaj put ima vidna poboljšanja, sa korektnim prevodom na prvom mestu i jakom semantičkom vezom sa ostalim ponuđenim kandidatima. • Napomena: Rezultati su iz malog podskupa INTERA korpusa, koji je korišćen za preliminarno istraživanje uspešnosti ovakve metode.

  12. Posle rangiranja • U opštem slučaju, rangiranje sortira sve ciljne reči u odnosu na rang, za zadato y iz izvornog korpusa. • U našem pristupu, izdvajamo samo prvih 5 kandidata. • Dalja poboljšanja su moguća – da li bilo koji od tih 5 kandidata kroz svoje kandidate (menjajući smer ciljnog i izvornog jezika) vodi nazad na reč y?

  13. Posle rangiranja - 2 • Vidno poboljšanje samog rangiranja je da se pored liste 5 najboljih kandidata (t1, t2, ..., t5) za svakog od njih formira lista njihovih najboljih 5 kandidata (s11, s12, ..., s15, s21, s22, ..., s51, s52, ..., s55). • Pretpostavimo dalje da s13, s32 i s52 odgovaraju polaznoj reči izvornog jezika. • U našem pristupu, reči 2 i 4 u ovom slučaju odbacujemo, a menjamo rang između 1, 3 i 5, dovodeći t3 na prvo mesto, pošto se ona svojim drugim najboljim kandidatom vraća na izvornu reč y.Kandidati 1 i 5 zadržavaju poredak, zbog toga što vode nazad kroz svoje kandidate istog ranga, a prvobitno je 1 imala veći rang od 5. • Ovaj korak eliminacije i permutacije nije kvantitativno zasnovan, već je na lingvističkoj osnovi – ako za neku reč srpskog imamo reč engleskog za koju pretpostavljamo da je dobar prevod, a pritom istom metodom ustanovimo da je ista ta reč dobar prevod te engleske reči, imamo jače uverenje u kvalitet prevoda.

  14. Obrada rezultata • Posmatrali smo samo prvorangirane kandidate prema opisanoj metodi. • Ručno su obeležene sve reči srpskog sa pojavljivanjem od 50 i više puta (2009 reči). • Od preostalih reči, odabrano je po 500 iz sledećih grupa: • 1 pojavljivanje • 2-5 pojavljivanja • 6-20 pojavljivanja • 21-49 pojavljivanja • Ocene koje su dodeljivane su OK/NOK (korektan prevod, nije korektan prevod).

  15. Neki rezultati • Za najfrekventnije srpske reči, 83,08% dobilo je, prema našoj oceni, adekvatan prevod. Reči koje se pojavljuju 50 i više puta čine 87,92% celog korpusa. • Reči koje se pojavljuju 6-20 puta na svom uzorku od 500 reči imale su 52,4% adekvatnih prevoda. • Reči koje se pojavljuju 21-49 puta imale su 61,8% adekvatnih prevoda.

  16. Rezultati - nastavak • Reči sa manjim brojem pojavljivanja dobile su 5 mogućih ocena koje nisu svođene na OK/NOK zbog male zastupljenosti u korpusu. • Ocene: OK / DOK / D / DNOK / NOK • Ocena D obeležava diskutabilnu situaciju, gde DOK i DNOK odražavaju ličnu preferencu, uz diskusiju. • Neke statistike: • Za reči sa jednim pojavljivanjem: 19,6% OK, 4,4% DOK, 0,8% D, 2,8% DNOK, 72,4% NOK. • Za reči sa 2-5 pojavljivajna: 31,2% OK, 3,8% DOK, 4,4% D, 1% DNOK, 59,6% NOK.

  17. Rezultati - nastavak • U prvih 2009 reči bilo je 340 NOK rezultata, koji su obeleženi sa semantičkim ocenama S1-S4, gde je S1 vrlo jaka semantička veza (nedovoljna za OK), S4 nepostojeća semantička veza. • S1 i S2 uglavnom se odnose na delove fraza, česte prideve i ostale semantički bliske reči. • S3 označava parove koji imaju neku vidljivu semantičku vezu. • Statistike za semantički skor: • S1: 17/340 ili 5% • S2: 103/340 ili 30,03% • S3: 57/340 ili 16,76% • S4: 163/340 ili 47,94%

  18. Zaključci • Više od 80% korpusa je pokriveno adekvatnim prevodima. • Skoro 90% korpusa je u nekoj opipljivoj semantičkoj vezi sa najboljim predloženim kandidatom. • Imajući u vidu jednostavnost metode, obećavajući rezultati.

  19. Dalji rad • Modifikacija rangiranja – proizvod dva faktora je zapravo kvadrat njihove geometrijske sredine – probati druge sredine, tipa harmonijsku, težinsku harmonijsku i sl. • Iskoristiti poravnanje u kompletnim paketima za statističko mašinsko prevođenje, tipa Moses, i videti da li poboljšavaju rezultate. • Semantička analiza na osnovu dobijenog poravnanja. • ...

  20. Zanimljivosti • Prilikom obrade rezultata, uočeno je da imenovani entiteti uglavnom korespondiraju sa svojom transkripcijom na ciljni jezik, npr: • Bošnjak – Bosniaks (ali loša lema, množina na ciljnom jeziku) • Službeni – Sluzxbeni (od Službeni glasnik) • Momčilović – Momcyilovicx • Takođe, možda još korisnije, skraćenice: • PDV – VAT • MOR – ILO (International Labour Organisation, Međunarodna Organizacija Rada/radnika) • ...

  21. Pitanja i odgovori

More Related