330 likes | 526 Views
Medjezično iskanje (MI) 1. Razlogi za razvoj MI, definicije in pregled postopkov MI, MI z večjezičnimi tezavri, računalniško prevajanje v MI. Motivacija za razvoj MI. Hiter razvoj omrežnega (spletnega) publiciranja sprožil razvoj iskalnikov spletnih dokumentov.
E N D
Medjezično iskanje (MI) 1 Razlogi za razvoj MI, definicije in pregled postopkov MI, MI z večjezičnimi tezavri, računalniško prevajanje v MI.
Motivacija za razvoj MI • Hiter razvoj omrežnega (spletnega) publiciranja sprožil razvoj iskalnikov spletnih dokumentov. • Na začetku skoraj 100% dokumentov v angleščini – vsa metodologija spletnih iskalnikov prilagojena angleščini. • Danes porazdelitev jezikov spletnih dokumentov bistveno drugačna: • 60% angleščina, • 39% evropski, neangleški jeziki, • 10% ostalo.
Motivacija za razvoj MI • Taka porazdelitev se neposredno odraža v zbirkah velikih iskalnikov. • Gradnja zbirk in iskalni algoritmi spletnih iskalnikov so še vedno prilagojeni angleščini.
Motivacija za razvoj MI Iskanje z iskalnimi zahtevami v naravnem jeziku: • Primerjanje besed ali besednih zvez iz iskalne zahteve z besedami ali besednimi zvezami v dokumentih. • Iskanje ne more dati rezultatov, če sta iskalna zahteva in dokument v različnih jezikih.
Motivacija za razvoj MI • Iskalec mora sestaviti ločene iskalne zahteve v jezikih dokumentov. • Težave: • iskalec se tekoče izraža le v enem ali dveh jezikih, ostali dokumenti nepoiskani, • neizenačena kvaliteta rezultatov zaradi različnega znanja jezikov pri istem iskalcu, • multiplikati prevodov istega dokumenta, • velik iskalni napor, • ...
Definicije medjezičnega iskanja V strokovni literaturi se pojavljajo različni izrazi: • cross-language IR, • cross-lingual IR, • multilingual IR, • translingual IR..., ne da bi bila jasna razmejitev njihovih pomenov.
Definicije MI Medjezično iskanje je iskanje, pri katerem je • naravni jezik iskalne zahteve lahko različen od jezika ali jezikov dokumentov v zbirki. • Iskalna zahteva je v jeziku aalib, • dokumenti v zbirki so v jezikih ainb, • poiskani relevantni dokumenti so v jezikihainb. • MI je tudi iskanje po enojezični zbirki, če so lahko iskalne zahteve v različnih jezikih.
Definicije MI • Enojezično ali istojezično iskanje (monolingual IR): • Iskalna zahteva in poiskani dokumenti v zbirki so v istem jeziku. • Medjezično iskanje z enim delom svoje definicije pokriva tudi enojezično iskanje.
Definicije MI • Najširši izraz je večjezično iskanje (multilingual IR), ki vključuje • enojezično iskanje, • medjezično iskanje, in • iskanje dokumentov z deli v več jezikih. • Večjezične sisteme imenujemo tudi sisteme s pomnoženo enojezično funkcionalnostjo: • ločene iskalne zahteve v različnih jezikih in priklic dokumentov v teh jezikih.
Definicije MI Ameriški zorni kot: • medjezični sistemi so »sistemi, ki iskalcem nudijo dokumente, ki jih ti ne znajo prebrati«.
Splošno o MI: IR vs. MI Področji IR in MI imata mnogo skupnega: • načine organiziranja dokumentov v zbirkah, • metode avtomatskega indeksiranja, • interpretiranje iskalnih zahtev, • računanje relevantnosti dokumentov.
Splošno o MI: IR vs. MI Med področji IR in MI obstaja bistvena razlika: • klasični IR ne potrebuje prevajanja. • Vsak avtomatski postopek MI, ki ni vezan na ročno indeksiranje z večjezičnimi tezavri, vključuje neko vrsto računalniškega prevajanja.
Splošno o MI Avtomatske metode medjezičnega iskanja prevajanje iskalnih zahtev prevajanje dokumentov kontroliran besednjak popolni dokumenti zgoščeni opisi naravni jezik formalizirano znanje korpusi ontologije poravnanebesede poravnanistavki poravnanidokumenti slovarji tezavri tezavri kolokacij vzporedni primerljivi
Ontologije Ontologija: • predstavitev mreže ali hierarhije konceptov in njihovih povezav Tezaver: • ontologija namenjena opisovanju in iskanju dokumentov v kontroliranih pogojih Dvojezični leksikon: • ontologija namenjena strojnemu prevajanju Dvojezični slovar: • ontologija namenjena človeškemu prevajanju
MI z večjezičnim tezavrom • Najstarejša oblika MI. • Tezaver s prevodi konceptov v različne jezike. • Ročno indeksiranje dokumenta v jezikih a, b,c z deskriptorji v jezikih a, b, c. • Iskanje z deskriptorji v jeziku a vrne dokumente v jezikih a, b, c. • Do 100% uspešnost v primerjavi z enojezičnim iskanjem.
MI z večjezičnim tezavrom Primer večjezičnega besednjaka: EUROVOC: • Večjezični tezaver, v katerem so vsa gesla prevedena v 18 jezikov EU (+ hrvaščina, albanščina, bolgarščina, romunščina in ruščina). • Gesla pokrivajo področja, na katerih je aktivna EU. • Uporabljajo ga dokumentacijske službe vseh pomembnejših institucij EU, pri katerih nastajajo dokumenti, med drugim Evropski, nacionalni in regionalni partlamenti.
MI z večjezičnim tezavrom • Največja pomanjkljivostMI z večjezičnim tezavrom je cena ročnega indeksiranja. • Opravljeni zanimivi poskusi izrabe večjezičnih tezavrov za prevajanje iskalnih zahtev v naravnem jeziku. • Osnovna ideja: prevesti iskalne zahteve v naravnem jeziku v deskriptorje večjezičnega tezavra in izvesti MI.
MI z večjezičnim tezavrom • Primer: uporaba UMLS za MI s francoskimi in španskimi iskalnimi zahtevami v naravnem jeziku. • UMLS (Unified Medical Language System): “seštevek” 60+ tezavrov, osnova je MeSH (Medical Subject Headings). • Obstaja nekaj prevodov MeSH, vključenih v UMLS.
MI z večjezičnim specializiranim tezavrom Povzetek postopka: • Prevajanje francoskih in španskih iskalnih zahtev v naravnem jeziku v francoske oz. španske prevode deskriptorjev MeSH. • Sestavljanje iskalne zahteve iz angleških ustreznic teh deskriptorjev. • Iskanje po zbirki Medline, ki je indeksirana z angleškimi deskriptorji.
MI z večjezičnim specializiranim tezavrom Primer (nadaljevanje): • Izbor francoskih (španskih) deskriptorjev v 3 korakih: • izbrani enobesedni deskriptorji, ki so enaki besedam iz iskalne zahteve, • sestavljeni vsi možni pari preostalih besed in izbrani dovolj podobni dvobesedni deskriptorji, • za vsako besedo, preostalo po korakih 1 in 2 • zbrani vsi deskriptorji, v katerih se pojavlja, • poiskani njihovi angleški prevodi, • angleški deskriptorji razbiti na besede, • kot prevod v angleščino izbrana najfrekventnejša beseda.
MI z večjezičnim specializiranim tezavrom Primer (nadaljevanje): • Uspešnost postopka, merjena kot % natančnosti, ki bi jo dosegli z angleškimi deskriptorji, ki bi jih določil izkušen informacijski posrednik: • španske iskalne zahteve – 71%, • francoske iskalne zahteve – 61%. • Relativno uspešen poskus, vendar postopek omejen na specializirano ontologijo (MeSH) v relativno ozki domeni (medicina).
MI zračunalniškim prevajanjem dokumentov Dilema: • prevajanje iskalnih zahtev ali prevajanje dokumentov? Prevajanje iskalnih zahtev: • (teoretično) manjši računalniški napor, • iskalec dobi rezultate v različnih jezikih, • večji iskalčev napor pri razumevanju dokumentov.
MI zračunalniškim prevajanjem dokumentov Prevajanje dokumentov (v fazi gradnje zbirke) • prevajanje vseh dokumentov v vse jezike zbirke, • iskanje je enojezično, • uporabnik dobi dokumente v svojem jeziku, • majhen iskalčev napor, velik (prevelik?) računalniški napor.
MI zračunalniškim prevajanjem dokumentov Prevajanje dokumentov (po iskanju) • prevajanje iskalnih zahtev, sledi medjezično iskanje, • iskalec je sposoben približnega razumevanja dokumentov in odločanja o relevantnih dokumentih, • (varianta: sistem sposoben avtomatskega abstrahiranja in prevajanja zgoščene vsebine), • avtomatsko prevajanje najboljših relevantnih dokumentov, • prevodi se v sistemu kopičijo.
MI zračunalniškim prevajanjem dokumentov Eden redkih poskusov (Oard, 1998): • Korpus 250.000 nemških dokumentov računalniško preveden v angleščino. • Iskanje z angleškimi iskalnimi zahtevami – zelo velika natančnost. • Za prevajanje porabljenih 10 procesorskih mesecev na delovnih postajah Sun Sparc 20. • Korpus relativno majhen in statičen – realnost spleta, digitalnih knjižnic in števila jezikov je drugačna.
MI zračunalniškim prevajanjem dokumentov Konsenz srenje: • računalniško prevajanje dokumentov je prenaporno in prepočasno za zahteve MI. • Zaenkrat je videti njegovo prihodnost le v omejenih situacijah za prevajanje posameznih dokumentov.
MI s prevajanjem iskalnih zahtev • Iskalna zahteva se z avtomatskimi postopki prevede v jezike dokumentov, potem sledi serija enojezičnih iskanj. • Na prvi pogled je pravo računalniško prevajanje iskalnih zahtev idealno tudi za potrebe MI, realnost je drugačna.
MI s prevajanjem iskalnih zahtev Računalniško prevajanje temelji na metodah, kot so • razčlenjevanje stavkov, • označevanje besednih vrst, • razreševanje dvoumnosti večpomenskih (polisemih besed). Cilj računalniškega prevajanjaje • generiranje sintaktično in semantično pravilnih stavkov. • Pri različnih prevodih besede se mora prevajalnik odločiti le za enega.
MI s prevajanjem iskalnih zahtev • Računalniško prevajanje potrebuje dolge in pravilne besedilne strukture ter sobesedilo za ugotavljanje najverjetnejšega pomena besed. • Iskalne zahteve so kratka besedila, pogosto le zaporedja ključnih besed. • Uporaben rezultat prevajanja za potrebe MI so posamezne, nepovezane besede. • Različni prevodi besede so pogosto sinonimi in so zato lahko koristni v prevedeni iskalni zahtevi.
MI s prevajanjem iskalnih zahtev • Pravo računalniško prevajanje iskalnih zahtev uporabno le v redkih primerih: • dolge, večstavčne iskalne zahteve, • dokument kot iskalna zahteva in iskanje najsorodnejših dokumentov v ciljnem jeziku.