220 likes | 358 Views
Zbirke celotnih besedil. Medjezično iskanje. Motivacija za razvoj MI. Iskanje z iskalnimi zahtevami v naravnem jeziku: Primerjanje besed ali besednih zvez iz iskalne zahteve z besedami ali besednimi zvezami v dokumentih.
E N D
Zbirke celotnih besedil Medjezično iskanje
Motivacija za razvoj MI Iskanje z iskalnimi zahtevami v naravnem jeziku: • Primerjanje besed ali besednih zvez iz iskalne zahteve z besedami ali besednimi zvezami v dokumentih. • Iskanje ne more dati rezultatov, če sta iskalna zahteva in dokument v različnih jezikih. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
Definicije MI Medjezično iskanje je iskanje, pri katerem je • naravni jezik iskalne zahteve lahko različen od jezika ali jezikov dokumentov v zbirki. • Iskalna zahteva je v jeziku aalib, • dokumenti v zbirki so v jezikih ainb, • poiskani relevantni dokumenti so v jezikihainb. • MI je tudi iskanje po enojezični zbirki, če so lahko iskalne zahteve v različnih jezikih. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
Splošno o MI: IR vs. MI Področji IR in MI imata mnogo skupnega: • načine organiziranja dokumentov v zbirkah, • metode avtomatskega indeksiranja, • interpretiranje iskalnih zahtev, • računanje relevantnosti dokumentov. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
Splošno o MI: IR vs. MI Med področji IR in MI obstaja bistvena razlika: • klasični IR ne potrebuje prevajanja. • Vsak avtomatski postopek MI, ki ni vezan na ročno indeksiranje z večjezičnimi tezavri, vključuje neko vrsto računalniškega prevajanja. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
Splošno o MI Avtomatske metode medjezičnega iskanja prevajanje iskalnih zahtev prevajanje dokumentov kontroliran besednjak popolni dokumenti zgoščeni opisi naravni jezik formalizirano znanje korpusi ontologije poravnanebesede poravnanistavki poravnanidokumenti slovarji tezavri tezavri kolokacij vzporedni primerljivi dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
MI z večjezičnim tezavrom • Najstarejša oblika MI. • Tezaver s prevodi konceptov v različne jezike. • Ročno indeksiranje dokumenta v jezikih a, b,c z deskriptorji v jezikih a, b, c. • Iskanje z deskriptorji v jeziku a vrne dokumente v jezikih a, b, c. • Do 100% uspešnost v primerjavi z enojezičnim iskanjem. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
MI zračunalniškim prevajanjem dokumentov Dilema: • prevajanje iskalnih zahtev ali prevajanje dokumentov? Prevajanje iskalnih zahtev: • (teoretično) manjši računalniški napor, • iskalec dobi rezultate v različnih jezikih, • večji iskalčev napor pri razumevanju dokumentov. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
MI zračunalniškim prevajanjem dokumentov Prevajanje dokumentov (v fazi gradnje zbirke) • prevajanje vseh dokumentov v vse jezike zbirke, • iskanje je enojezično, • uporabnik dobi dokumente v svojem jeziku, • majhen iskalčev napor, velik (prevelik?) računalniški napor. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
MI zračunalniškim prevajanjem dokumentov Prevajanje dokumentov (po iskanju) • prevajanje iskalnih zahtev, sledi medjezično iskanje, • iskalec je sposoben približnega razumevanja dokumentov in odločanja o relevantnih dokumentih, • (varianta: sistem sposoben avtomatskega abstrahiranja in prevajanja zgoščene vsebine), • avtomatsko prevajanje najboljših relevantnih dokumentov, • prevodi se v sistemu kopičijo. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
MI zračunalniškim prevajanjem dokumentov Konsenz srenje: • računalniško prevajanje dokumentov je prenaporno in prepočasno za zahteve MI. • Zaenkrat je videti njegovo prihodnost le v omejenih situacijah za prevajanje posameznih dokumentov. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
MI s prevajanjem iskalnih zahtev • Iskalna zahteva se z avtomatskimi postopki prevede v jezike dokumentov, potem sledi serija enojezičnih iskanj. • Na prvi pogled je pravo računalniško prevajanjeiskalnih zahtev idealno tudi za potrebe MI, realnost je drugačna. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
MI s prevajanjem iskalnih zahtev Računalniško prevajanje temelji na metodah, kot so • razčlenjevanje stavkov, • označevanje besednih vrst, • razreševanje dvoumnosti večpomenskih (polisemih besed). Cilj računalniškega prevajanjaje • generiranje sintaktično in semantično pravilnih stavkov. • Pri različnih prevodih besede se mora prevajalnik odločiti le za enega. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
MI s prevajanjem iskalnih zahtev • Računalniško prevajanje potrebuje dolge in pravilne besedilne strukture ter sobesedilo za ugotavljanje najverjetnejšega pomena besed. • Iskalne zahteve so kratka besedila, pogosto le zaporedja ključnih besed. • Uporaben rezultat prevajanja za potrebe MI so posamezne, nepovezane besede. • Različni prevodi besede so pogosto sinonimi in so zato lahko koristni v prevedeni iskalni zahtevi. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje
Prevajanje iskalnih zahtev s slovarji Potrebujemo dvojezični e-slovar. Različne oblike: od enostavnega glosarja z dvojezičnimi pari besed do pravega računalniškega leksikona s sintaktičnimi in semantičnimi informacijami. Za vsako besedo (razen blokiranih) iz iskalne zahteve poiščemo prevod v ciljnem jeziku. S prevedeno iskalno zahtevo opravimo enojezično iskanje dokumentov v ciljnem jeziku. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje 15
Prevajanje iskalnih zahtev s slovarji V postopek že vgrajena nenatančnost, izvirajoča iz ohlapnosti naravnega jezika: veliko besed nima natančnega prevoda, ali je prevodov več, z zelo različnimi pomeni. Vključevanje prevodov z napačnimi pomeni zelo zniža natančnost iskanja. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje 16
Prevajanje iskalnih zahtev s slovarji Uspešnost iskanja brez razreševanja dvoumnosti zaradi polisemije(vključevanje vseh možnih prevodov): 40% - 60% natančnosti enojezičnega iskanja. Vse kar je več je odlično. Izkaže se celo, da je izbira naključnega od možnih prevodov enako dobra, kot izbira vseh prevodov. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje 17
Prevajanje iskalnih zahtev s slovarji Razreševanje polisemije: v iskalno zahtevo vključimo vse prevode neke besede in poskušamo zmanjšati vpliv posameznega prevoda, ali iz porazdelitve besed v učnem korpusu poskušamo izračunati verjetnost posameznih prevodov in vključimo najverjetnejšega(e). dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje 18
Prevajanje iskalnih zahtev s slovarji Pomen prevajanja besednih zvez Pravilno prevajanje besednih zvez dramatično zmanjša vpliv polisemije: samostojno prevajanje posameznih besed, ki sestavljajo zvezo, uvaja množico pomenov, ki so največkrat drugačni od pomena besedne zveze, besedne zveze imajo običajno en sam pomen, zato prevajanje zvez ne uvaja dvoumnosti. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje 19
Prevajanje iskalnih zahtev s korpusi Postopki so najenostavnejši, če so na razpolagoparalelni korpusi, poravnani na nivoju stavkov. Uporaba: Prevajamo iskalno zahtevo iz jezika J1v jezik J2. Sistem za vsako besedo v iskalni zahtevi v jeziku J1 poišče v korpusu v jeziku J1 vse stavke s to besedo. V korpusu v jeziku J2 poišče paralelne stavke, jih združi in poišče najpogostejšo besedo. To besedo vključi v prevod iskalne zahteve. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje 20
Prevajanje iskalnih zahtev s korpusi Tak enostaven pristop je relativno uspešen, če paralelni korpus sodi v isto domeno, kot iskalna zahteva. Paralelni korpusi, poravnani na nivoju stavkov, zelo redki, izdelava izjemno draga. Obstajajo le za nekatere jezikovne pare in le za nekatere domene. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje 21
Prevajanje iskalnih zahtevs slovarji in korpusi Najboljše rezultate daje kombinacija prevajanja iskalne zahteve s slovarjem in razreševanja dvoumnosti s korpusom. Uporabljeni korpusi: paralelni, poravnani na nivoju dokumentov, ali primerljivi, »poravnani« na nivoju tematike. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Medjezično iskanje 22