1 / 36

Medjezično iskanje (MI) 2

Medjezično iskanje (MI) 2. Prevajanje iskalnih zahtev s slovarji, prevajanje iskalnih zahtev s korpusi, avtomatska gradnja jezikovnih virov. MI s prevajanjem iskalnih zahtev P revajanje iskalnih zahtev s slovarji. P revajanje iskalnih zahtev s slovarji.

anise
Download Presentation

Medjezično iskanje (MI) 2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Medjezično iskanje (MI) 2 Prevajanje iskalnih zahtev s slovarji,prevajanje iskalnih zahtev s korpusi,avtomatska gradnja jezikovnih virov.

  2. MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtev s slovarji J. Dimec. Medjezično iskanje 2

  3. Prevajanje iskalnih zahtev s slovarji • Potrebujemo dvojezični e-slovar. Različne oblike: • od enostavnega glosarja z dvojezičnimi pari besed • do pravega računalniškega leksikona s sintaktičnimi in semantičnimi informacijami. • Za vsako besedo (razen blokiranih) iz iskalne zahteve poiščemo prevod v ciljnem jeziku. • S prevedeno iskalno zahtevo opravimo enojezično iskanje dokumentov v ciljnem jeziku. J. Dimec. Medjezično iskanje 2

  4. Prevajanje iskalnih zahtev s slovarji • V postopek že vgrajena nenatančnost, izvirajoča iz ohlapnosti naravnega jezika: • veliko besed nima natančnega prevoda, ali • je prevodov več, z zelo različnimi pomeni. • Vključevanje prevodov z napačnimi pomeni zelo zniža natančnost iskanja. J. Dimec. Medjezično iskanje 2

  5. Izpeljava eksperimentov s prevajanjem iskalnih zahtev Klasični pristop: • Imamo iskalne zahteve v jeziku b in dokumente v jeziku b; znani so relevantni dokumenti za iskalne zahteve. • Postopek: • enojezično iskanje v jeziku b (rezultat za primerjavo z MI), • ročno prevajanje iskalnih zahtev v jezik a, • avtomatsko prevajanje iskalnih zahtev v jezik b, • enojezično iskanje v jeziku bz isk. zahtevami iz 3. koraka – v resnici medjezično iskanje, • primerjava rezultatov 1 in 4. J. Dimec. Medjezično iskanje 2

  6. Prevajanje iskalnih zahtev s slovarji Osrednji problemi MI: • prevajanje polisemih besed, • prevajanje besednih zvez, • prevajanje strokovnih izrazov, • pomanjkanje jezikovnih virov, • neprimerljivost rezultatov, dobljenih z različnimi metodami. J. Dimec. Medjezično iskanje 2

  7. Prevajanje iskalnih zahtev s slovarji Problem polisemije: • Beseda v izvornem jeziku ima lahko veliko različnih pomenov, prevod vsakega od pomenov ima lahko tudi v ciljnem jeziku različne pomene. • Primer: beseda “fly”. • V angleščini 8 pomenov in 13 možnih španskih prevodov; • njihovo prevajanje nazaj v angleščino da 38 različnih besed. • Posledica iskanja z enostavnim prevajanjem brez razreševanja polisemije je kombinatorična eksplozija pomenov in rezultati iskanja z zelo nizko natančnostjo. J. Dimec. Medjezično iskanje 2

  8. Prevajanje iskalnih zahtev s slovarji • Uspešnost iskanja brez razreševanja dvoumnosti zaradi polisemije(vključevanje vseh možnih prevodov): 40% - 60% natančnosti enojezičnega iskanja. • Vse kar je več je odlično. • Izkaže se celo, da je izbira naključnega od možnih prevodov enako dobra, kot izbira vseh prevodov. J. Dimec. Medjezično iskanje 2

  9. Prevajanje iskalnih zahtev s slovarji Razreševanje polisemije: • v iskalno zahtevo vključimo vse prevode neke besede in poskušamo zmanjšati vpliv posameznega prevoda, ali • iz porazdelitve besed v učnem korpusu poskušamo izračunati verjetnost posameznih prevodov in vključimo najverjetnejšega(e). J. Dimec. Medjezično iskanje 2

  10. Prevajanje iskalnih zahtev s slovarji Pomen prevajanja besednih zvez • Pravilno prevajanje besednih zvez dramatično zmanjša vpliv polisemije: • samostojno prevajanje posameznih besed, ki sestavljajo zvezo, uvaja množico pomenov, ki so največkrat drugačni od pomena besedne zveze, • besedne zveze imajo običajno en sam pomen, zato prevajanje zvez ne uvaja dvoumnosti. J. Dimec. Medjezično iskanje 2

  11. Prevajanje iskalnih zahtev s slovarji Pomen prevajanja besednih zvez • Poskus (Hull, Grefenstette, 1996): • Prevajanje iskalnih zahtev iz francoščine v angleščino. Med drugim primerjala učinek (a) slovarja z enobesednimi gesli in (b) istega slovarja z dodanimi prevodi besednih zvez. • Rezultati: (a) 68,4% natančnosti enojezičnega iskanja, (b) 90,8% natančnosti enojezičnega iskanja. J. Dimec. Medjezično iskanje 2

  12. Prevajanje iskalnih zahtev s slovarji • Za prevajanje so problematične iskalne zahteve, ki sprašujejo po vsebini dokumentov. • “Vsebinske” iskalne zahteve so zelo pogosto strokovne narave. • Problem: • zelo redki računalniški dvojezični slovarji strokovnega jezika, • prevajanje iskalnih zahtev strokovne narave običajno poteka s slovarji splošnega jezika. • Posledica iskanja je nizek priklic. J. Dimec. Medjezično iskanje 2

  13. Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole, 1998 • Prevajanje iz finščine v angleščino. • Iskanje časopisnih člankov s poljudno medicinsko tematiko. • Uporabljeni postopki za: • prevajanje strokovnega izrazja, • prevajanje polisemih besed, • prevajanje besednih zvez. J. Dimec. Medjezično iskanje 2

  14. Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) • Uporabil splošni in strokovni medicinski slovar: • najprej prevajanje s strokovnim slovarjem, • sledi prevajanje preostalih besed s splošnim slovarjem. • Vključil vse možne prevode vsake besede, dvoumnost zaradi polisemije rešil z obteževanjem prevodov. J. Dimec. Medjezično iskanje 2

  15. Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) • Pri iskanju so imeli vsi prevodi ene besede enak skupni vpliv na računanje relevantnosti dokumenta kot beseda, ki da en sam prevod. • Tako je imel posamezen (največkrat napačen) prevod poliseme besede manjši relativni vpliv kot prevod besede z enim samim pomenom. • Strokovne besede so imele največkrat en sam prevod. J. Dimec. Medjezično iskanje 2

  16. Prevajanje iskalnih zahtev s slovarji Poskus A. Pirkole (nadaljevanje) • Problem določanja in prevajanja besednih zvez močno olajšan zaradi same narave finščine – besedne zveze so sestavljenke. • Uspeh: • povprečna natančnost MI praktično dosegla povprečno natančnost enojezičnega iskanja. • Nauk: • zelo dobre rezultate je mogoče doseči brez uporabe dragih jezikovnih virov in zapletenih metod računalniškega jezikoslovja. J. Dimec. Medjezično iskanje 2

  17. MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtev s korpusi J. Dimec. Medjezično iskanje 2

  18. Prevajanje iskalnih zahtev s korpusi • Postopki so najenostavnejši, če so na razpolagoparalelni korpusi, poravnani na nivoju stavkov. • Uporaba: • Prevajamo iskalno zahtevo iz jezika J1v jezik J2. • Sistem za vsako besedo v iskalni zahtevi v jeziku J1 poišče v korpusu v jeziku J1 vse stavke s to besedo. • V korpusu v jeziku J2 poišče paralelne stavke, jih združi in poišče najpogostejšo besedo. • To besedo vključi v prevod iskalne zahteve. J. Dimec. Medjezično iskanje 2

  19. Prevajanje iskalnih zahtev s korpusi • Tak enostaven pristop je relativno uspešen, če paralelni korpus sodi v isto domeno, kot iskalna zahteva. • Paralelni korpusi, poravnani na nivoju stavkov, zelo redki, izdelava izjemno draga. • Obstajajo le za nekatere jezikovne pare in le za nekatere domene. J. Dimec. Medjezično iskanje 2

  20. MI s prevajanjem iskalnih zahtev Prevajanje iskalnih zahtevs slovarji in korpusi J. Dimec. Medjezično iskanje 2

  21. Prevajanje iskalnih zahtevs slovarji in korpusi • Najboljše rezultate daje kombinacija prevajanja iskalne zahteve s slovarjem in razreševanja dvoumnosti s korpusom. • Uporabljeni korpusi: • paralelni, poravnani na nivoju dokumentov, ali • primerljivi, »poravnani« na nivoju tematike. J. Dimec. Medjezično iskanje 2

  22. Prevajanje iskalnih zahtevs slovarji in korpusi Primer: Ballesteros, Croft; 1997 Instrumentarij: • Collinsov angleško-španski slovar. • primerljivi angleški korpus. Iskalne zahteve v angleščini, iskanje po španskizbirki. Priprava iskalnih zahtev: • označevanje besednih vrst v iskalni zahtevi, • določitev besednih zvez samostalnik-samostalnik, pridevnik-samostalnik, Ločeno prevajanje posameznih besed in besednih zvez. J. Dimec. Medjezično iskanje 2

  23. Prevajanje iskalnih zahtevs slovarji in korpusi Ballesteros, Croft; 1997, (nadaljevanje): • Uporabljena dva postopka, ki izvirata iz klasičnega IR: • lokalna povratna zanka (LPZ) in • lokalna kontekstna analiza (LKA). J. Dimec. Medjezično iskanje 2

  24. Prevajanje iskalnih zahtevs slovarji in korpusi • začetno iskanje, povratna zanka: • iskalec označi relevantne dokumente, • sistem razširi iskalno zahtevo z »najboljšimi« besedami iz njih. lokalna povratna zanka: • sistem privzame, da so vsi najvišje uvrščeni dokumenti relevantni in • razširi iskalno zahtevo z »najboljšimi« besedami iz njih. J. Dimec. Medjezično iskanje 2

  25. Prevajanje iskalnih zahtevs slovarji in korpusi Kontekstna analiza: • širitev iskalne zahteve z besedami ali besednimi zvezami, ki se v korpusu največkrat sopojavljajo z besedami iz iskalne zahteve. Lokalna kontekstna analiza: • začetno iskanje, • kontekstna analiza na najvišje uvrščenih dokumentih. J. Dimec. Medjezično iskanje 2

  26. Prevajanje iskalnih zahtevs slovarji in korpusi Ballesteros, Croft; 1997, eksperimenti: • Slovar: iskanje s slovarskim prevodom. • Pred-LPZ: razširitev iskalnih zahtev z lokalno povratno zanko pred prevajanjem (angl. korpus). • Po-LPZ: razširitev iskalnih zahtev z lokalno povratno zanko po prevajanju (špan. korpus). • Pred-LKA: razširitev iskalnih zahtev z lokalno kontekstno analizo pred prevajanjem (angl. korpus). • Po-LKA: razširitev iskalnih zahtev z lokalno kontekstno analizo po prevajanju (špan. korpus). • Komb-LPZ: kombinirana razširitev iskalnih zahtev z lokalno povratno zanko pred in po prevajanju. • Komb-LKA: kombinirana razširitev iskalnih zahtev z lokalno kontekstno analizo pred in po prevajanju. J. Dimec. Medjezično iskanje 2

  27. Ponazoritev postopka Ballesteros, Croft, 1997 J. Dimec. Medjezično iskanje 2

  28. Prevajanje iskalnih zahtevs slovarji in korpusi Rezultati Ballesteros, Croft; 1997: J. Dimec. Medjezično iskanje 2

  29. Prevajanje iskalnih zahtevs slovarji in korpusi Ballesteros, Croft; 1997: • Nauk - dobre rezultate da • kombinacija metod IR • širjenje iskalne zahteve v izvornem in ciljnem jeziku z dodatnimi pomensko sorodnimi izrazi, • in metod računalniškega jezikoslovja • označevanje besednih vrst in • identifikacija besednih zvez. J. Dimec. Medjezično iskanje 2

  30. Avtomatska gradnja jezikovnih virov:gradnja paralelnih korpusov J. Dimec. Medjezično iskanje 2

  31. Gradnja paralelnih korpusov Nie et al., 1999: • Odkrivanje jezikovnih parov spletnih dokumentov. • Uporabili najpogostejše lastnosti parov: • prevodi dokumentov povezani s kazalci v obe smeri, • besedilo sidra kazalca imenuje jezik dokumenta (“in English”, “English version”...), • pari dokumentov imajo podobna imena (“products_fre.html”, “products_eng.html”...), • na spletišču sta hierarhiji map za dokumente v posameznih jezikih zelo podobni ali identični. J. Dimec. Medjezično iskanje 2

  32. Gradnja paralelnih korpusov Nie et al., 1999 (nadaljevanje): • Brez posebnih težav sestavili paralelni korpus, poravnan na nivoju besedil. • Nadaljevanje postopka je avtomatsko preverjanje pravilnosti izbire parov z enostavnimi hevrističnimi postopki. • Ročno preverjanje pokazalo le 2% napak. • Velikost korpusa 14.200 parov dokumentov (250 Mbytov). J. Dimec. Medjezično iskanje 2

  33. Avtomatska gradnja jezikovnih virov:gradnja tezavrov kolokacij J. Dimec. Medjezično iskanje 2

  34. Gradnja tezavrov kolokacij • Dvojezični tezavri kolokacij (similarity thesauri) so avtomatsko zgrajen približek dvojezičnim slovarjem. • Enojezično okolje dokumentov: • Znanje o vsebinski domeni korpusa je opisano s podatki o sorodnosti izrazov v korpusu. • Temelj je predpostavka, da imata besedi, ki se pogosto pojavljata v istih dokumentih, sorodno vsebino. • Sorodnost dveh izrazov se meri s statistično analizo njunih kolokacij. J. Dimec. Medjezično iskanje 2

  35. Gradnja tezavrov kolokacij • Tezavri kolokacij v enojezičnem okolju (nadaljevanje): • Za merjenje teže neke kolokacije z besedo b je pomembna tudi vsebina dokumenta; • kolokacije z besedo b, ki nastopajo v dokumentih, kjer je vsebina b zelo pomembna, imajo večjo težo, kot kolokacije z b v ostalih dokumentih. • Tezaver kolokacij je seznam vseh besed v korpusu in, za vsako besedo, njej najsorodnejših besed. J. Dimec. Medjezično iskanje 2

  36. Gradnja tezavrov kolokacij Tezavri kolokacij v dvojezičnem okolju: • Potrebujemo dvojezični korpus, vzporeden na nivoju dokumentov. • Jezikovne pare dokumentov združimo v navidezne dokumente. • Analiza kolokacij v teh navideznih dokumentih prinese najverjetnejše prevode besed. • Tezavri kolokacij so bili uspešno uporabljeni v MI. J. Dimec. Medjezično iskanje 2

More Related