390 likes | 562 Views
Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike. Jernej Vičič jernej.vicic@upr.si. Mentor: prof. dr Igor Kononenko Somentor: doc. dr Tomaž Erjavec. Vsebina. Pojmovnik Strojno prevajanje Statistično strojno prevajanje
E N D
Predstavitev doktorske disertacije Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike Jernej Vičič jernej.vicic@upr.si Mentor: prof. dr Igor Kononenko Somentor: doc. dr Tomaž Erjavec
Predstavitev doktorske disertacije Vsebina • Pojmovnik • Strojno prevajanje • Statistično strojno prevajanje • Prevajanje na osnovi pravil in plitko razčlenjevanje • Jezikovna gradiva in njih hitra izdelava • Rezultati in nadaljnje delo
Predstavitev doktorske disertacije 1 Pojmovnik • lema – lemma, • krn – stem, • paradigma, • POS – Part Of Speech, • oblikoskladenjske oznake MSD • (projekt MULTEXT-EAST), • oznake projekta JOS.
Predstavitev doktorske disertacije 2 Strojno prevajanje • Machine translation (MT) is the application of computers to the task of translating texts from one natural language to another (EAMT) • (FAMT) Fully Automatic Machine Translation translation of natural languages with no user intervention
Predstavitev doktorske disertacije 2 Strojno prevajanje, zgodovina • Začetek • prva leta, • petdeseta leta prejšnjega stoletja, • osemdeseta in začetki devetdesetih, • zdaj.
Predstavitev doktorske disertacije 2 Strojno prevajanje, zgodovina • 1700 in prej: Leibniz in Descartes, • “translating machines”, trak z besedami, • pravi začetki digitalnega MT • petdeseta leta • Georgetown-IBM experiment, • ALPAC report (1966), • pozna devetdeseta (IBM Brown - SMT), • danes: Google, Microsoft, odprtokodne rešitve.
Predstavitev doktorske disertacije 2 Strojno prevajanje, zgodovina The Good News According to Mark: “The spirit indeed is willing, but the flesh is weak.” prevod: “The vodka is good, but the flesh is rotten.”
Predstavitev doktorske disertacije 2 Strojno prevajanje, razdelitev • Strojno prevajanje - SP • SP na osnovi pravil (Rule-based MT) • Statistično SP (Statistical MT) • SP na osnovi primerov (Example-based MT) • Hibridno SP (Hybrid MT)
Predstavitev doktorske disertacije Plitko razčlenjevanje Popolno ali delno razčlenjevanje
Predstavitev doktorske disertacije 3 Statistično strojno prevajanje • temelji na verjetnosti, • temelji na velikih količinah primerov, • matematično „lepi“ modeli, • rezultate težko preverjamo (zakaj), • napake težko odpravljamo.
Predstavitev doktorske disertacije 3 Statistično strojno prevajanje • Predstavniki: • Google translate, • Microsoft BING translator, • IBM (Brown in sodelavci), • Moses (financiran projekt evropske skupnosti), • Menola (moja malenkost – na podlagi št. 3).
Predstavitev doktorske disertacije 3 Statistično strojno prevajanje • Potrebujemo velik dvojezični korpus: • poravnane povedi izvornega ter ciljnega jezika; • izdelamo prevajalni model. • Potrebujemo velik enojezični korpus: • izdelamo jezikovni model ciljnega jezika.
Predstavitev doktorske disertacije 4 Strojno prevajanje na osnovi pravil • Rule-Based Machine Translation, • najbolj razširjeno (če zanemarimo Google), • osnovni problem: • dolgotrajna izdelava virov, • možna rešitev problema: • samodejna izdelava virov.
Predstavitev doktorske disertacije 4 RBMT - viri • oblikoskladenjsko označeni enojezični slovarji, • dvojezični prevajalni slovarji, • prevajalna pravila, • sistemi za razdvoumljanje (označevalec POS, MSD), • skladenjski razčlenjevalci povedi.
Predstavitev doktorske disertacije 4 Arhitektura tipičnega sistema
Predstavitev doktorske disertacije 5 Jezikovna gradiva • Apertium kot primer prevajalnega sistema na osnovi pravil. • leksikon izvornega jezika • leksikon ciljnega jezika • dvojezični leksikon • pravila prenosa • enojezični korpus, čim večji • pravila končnega urejanja
Predstavitev doktorske disertacije 5 Problemi s slovenščino • miza • mize • mizi • mizo • mizi • mizo table
Predstavitev doktorske disertacije 5 Gradnja slovarjev • gradimo iz korpusa, • naš korpus je že označen, • uporabimo paradigme.
Predstavitev doktorske disertacije 5 Paradigme
Paradigma: zvonč-ek[N] Krn: zvonč Besedna vrsta N (noun, samostalnik) ek -- "ncmsa--n“ -- Sometn -- samostalnik občno_ime moški ednina tožilnik -živost ek -- "ncmsn" -- Somei -- samostalnik občno_ime moški ednina imenovalnik ka -- "ncmda" -- Somdt -- samostalnik občno_ime moški dvojina tožilnik ka -- "ncmdn" ka -- "ncmsg" ke -- "ncmpa" kih -- "ncmdl" kih -- "ncmpl" ki -- "ncmpi" ki -- "ncmpn" koma -- "ncmdd" koma -- "ncmdi" kom -- "ncmpd" kom -- "ncmsi" kov -- "ncmdg" kov -- "ncmpg" ku -- "ncmsd" ku -- "ncmsl" ka -- "ncmsa--y"
Predstavitev doktorske disertacije 5 … njih graditev • Večjezični korpus MULTEXT-EAST; • izbrali smo 2 jezika: slovenščina, srbščina. • Izdelamo spisek vseh pojavnic z oznakami MSD in lemami.
Predstavitev doktorske disertacije 5 … njih graditev • izdelava začetnih paradigem za vsako lemo, • lema, • krn, • zapisi za vsako besedno obliko.
Predstavitev doktorske disertacije 5 … njih graditev • Dve paradigmi združimo v novo paradigmo če: • se ujemata v prvi oznaki MSD – besedna vrsta, • sta istega spola, • se vsi zapisi le dopolnjujejo (se medsebojno ne izključujejo).
Predstavitev doktorske disertacije <pardef n="zvonč-ek[N]“ lemmata=“zvonček”> • <pardef n="zvonč-ek[N]“ lemmata=“zvonček vsadek”> • <e><p><l>ek</l><r>ek<s n="ncmsa--n"/></r></p></e> • <e><p><l>ek</l><r>ek<s n="ncmsn"/></r></p></e> • <e><p><l>ka</l><r>ek<s n="ncmda"/></r></p></e> • <e><p><l>ka</l><r>ek<s n="ncmdn"/></r></p></e> • <e><p><l>ka</l><r>ek<s n="ncmsg"/></r></p></e> • <e><p><l>ke</l><r>ek<s n="ncmpa"/></r></p></e> • ... • </pardef> • <pardef n=“vsad-ek[N]“ lemmata=“vsadek”> • <e><p><l>ku</l><r>ek<s n="ncmsd"/></r></p></e> • <e><p><l>ku</l><r>ek<s n="ncmsl"/></r></p></e> • … • </pardef>
Predstavitev doktorske disertacije 5 … njih graditev • Zapišemo sestavljene paradigme; • Zapišemo zapise za vsako lemo.
Predstavitev doktorske disertacije <pardef n="zvonč-ek[N]" lemmas="zvonček zvitek zvezek zvarek žužek zrezek znesek zmenek zmazek zavojček zavitek zavihek zaslužek zaselek zarodek žarek žarek žarek žarek žarek zapisek zamašek zaključek zajček zaimek zahtevek zadetek zadek začetek vzdevek vsadek vršiček voziček vosek višek venček užitek učinek tujek trenutek trebušček torek sunek strošek strdek stolček stebriček stavek spominek šopek sodček smrček skupek škrjanček škandalček šipek sinček sestavek sestanek sesek samoprispevek samček rožiček razporek razloček prstek prostorček prizidek privesek pristanek prispevek prisesek prirastek pripomoček primerek prijateljček priimek prihranek prigrizek pridržek pridelek preudarek prestopek prestanek presledek presežek presadek preostanek prekršek predsodek predelek prašiček prašek požirek povedek poudarek potoček postopek postanek posnetek popravek popek ponedeljek ponaredek pomenek pododdelek podlistek podatek podaljšek počitek pljunek plamenček petek pesek peklenšček ovinek otoček ostanek osnutek oslinek osebek opravek olupek odtenek odstotek odstavek odpustek odpadek odmerek odlomek oddelek očitek obstanek obronek oblaček obkladek obesek občutek nožek norček nastanek nasmešek našitek napredek napotek napitek nameček nadzidek nadomestek možiček mošnjiček molek mleček mladiček metek mehurček maček lonček ljubljenček ljubček listek kužek kupček krokodilček kozarček kotiček košček konjiček kolek kanček kamenček jermenček jašek jarek izvržek izvleček iztrebek izstrelek izsledek izrodek izrastek izloček izdelek izcedek izbljuvek hribček hrček hlebček grmiček griček gozdiček fantek dvojček dušek dosežek dojenček dohodek dogodek dodatek dobiček delček dedek deček davek curek cucek človeček članek četrtek božiček angelček "> <e><p><l>ek</l><r>ek<s n="ncmsa--n"/></r></p></e> <e><p><l>ek</l><r>ek<s n="ncmsn"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmda"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmdn"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmsg"/></r></p></e> <e><p><l>ke</l><r>ek<s n="ncmpa"/></r></p></e> <e><p><l>kih</l><r>ek<s n="ncmdl"/></r></p></e> <e><p><l>kih</l><r>ek<s n="ncmpl"/></r></p></e> <e><p><l>ki</l><r>ek<s n="ncmpi"/></r></p></e> <e><p><l>ki</l><r>ek<s n="ncmpn"/></r></p></e> <e><p><l>koma</l><r>ek<s n="ncmdd"/></r></p></e> <e><p><l>koma</l><r>ek<s n="ncmdi"/></r></p></e> <e><p><l>kom</l><r>ek<s n="ncmpd"/></r></p></e> <e><p><l>kom</l><r>ek<s n="ncmsi"/></r></p></e> <e><p><l>kov</l><r>ek<s n="ncmdg"/></r></p></e> <e><p><l>kov</l><r>ek<s n="ncmpg"/></r></p></e> <e><p><l>ku</l><r>ek<s n="ncmsd"/></r></p></e> <e><p><l>ku</l><r>ek<s n="ncmsl"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmsa--y"/></r></p></e> </pardef>
Predstavitev doktorske disertacije 5 Razdvoumljanje, označevalnik MSD Ni drevesa v gozdu in videl sem drevesa v gozdu. • drevesa Soser drevo • drevesa Sosmt drevo • uporabimo za razdvoumljanje
Predstavitev doktorske disertacije 5 Prevajalna pravila • pravila plitkega prenosa • lokalna okolica (končna) • regularni izrazi končni avtomati
Predstavitev doktorske disertacije 5 Prevajalna pravila • vzorec • končna dolžina • leksikalne enote (LU) • ukrep • akcije nad vzorcem
Predstavitev doktorske disertacije 5 Prevajalna pravila • vzorec • končna dolžina • leksikalne enote (LU) • ukrep • akcije nad vzorcem
Predstavitev doktorske disertacije 5 Prevajalna pravila • vzorec • končna dolžina • leksikalne enote (LU) • ukrep • akcije nad vzorcem
Predstavitev doktorske disertacije 5 Prevajalna pravila - uporaba • leksikalni in strukturni prenos, • lokalno ujemanje oblikoskladenjskih kategorij.
Predstavitev doktorske disertacije 6 Rezultati
Predstavitev doktorske disertacije 6 Rezultati – ročno popravljen sistem • Google summer of code • GSOC2011: sl-es • GSOC2012: sh-sl
Predstavitev doktorske disertacije 6 Rezultati – ročno popravljen sistem
Predstavitev doktorske disertacije 6 Prevajalni sistem Guat • naslov: http://jt.upr.si/guat • preizkus uspešnosti metod, • kaže najnovejše (dobre) poizkuse, • omogoča komunikacijo z možnimi sodelavci.
Kupiti ću lep novi automobil i otići ću na more. Kupil bom lep nov avtomobil in odšel bom na morje. Sutra ću kupiti veoma lepim pištoljem. Jutri bom kupil zelo lepo pištolo. Čerington, sutra biće lep dan. Gospod, jutri bo lep dan.
Predstavitev doktorske disertacije 6 Nadaljnje delo • postavitev novih prevajalnih sistemov: • uporaba predstavljenih metod, • ročna izboljšava jezikovnih gradiv, • Ugor (sl-sh) - produkcijska kakovost, • Sardela (sl-es) – še v povojih. • http://jt.upr.si/jernejevdoktorat/
Predstavitev doktorske disertacije 7 Prispevki k znanosti • metoda za statistično strojno prevajanje z drevesi izpeljav za manj uporabljene jezike; • metoda za samodejno označevanje paradigem; • metoda za samodejno luščenje paradigem za visoko pregibne jezike in izdelava pripadajočih leksikonov; • ocenjevanje pravil za strukturni prenos; • hitra izdelava prevajalnega sistema na osnovi pravil plitkega prenosa za sorodne jezike.