370 likes | 537 Views
JOTA 2007. Izraba večjezičnih virov za izgradnjo slovenskega wordneta. Darja Fišer Oddelek za prevajalstvo Filozofska fakulteta Univerza v Ljubljan i. 18. december 2007. Pregled predavanja. ozadje & motivacija osnovne predpostavke & hipoteza eksperiment 1 eksperiment 2
E N D
JOTA 2007 Izraba večjezičnih virovza izgradnjoslovenskega wordneta Darja Fišer Oddelek za prevajalstvo Filozofska fakulteta Univerza v Ljubljani 18. december 2007
Pregled predavanja • ozadje & motivacija • osnovne predpostavke & hipoteza • eksperiment 1 • eksperiment 2 • sklep & načrti za prihodnost • razprava Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Zakaj potrebujemosemantične leksikone • aplikacije, ki se spopadajo z razumevanjem & interpretacijo jezika • strojno prevajanje • klasifikacija dokumentov • luščenje informacij • povzemanje besedil • … • most med jezikom in znanjem, ki je z jezikom izraženo • semantična normalizacija • razdvoumljanje Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Semantični leksikoni • definirajo pomen neke besede glede na to, kako je povezan s pomeni drugih besed • strojno berljivi slovarji (LDOCE) • tezavri (Roget) • leksikalne zbirke (FrameNet, WordNet, MindNet) • ontologije & baze znanj (Cyc, ConceptNet, HowNet) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Princeton WordNet (http://wordnet.princeton.edu/) • leksikalna zbirka za modeliranje mentalnega leksikona • besede so urejene v koncepte, ki so med seboj povezani z relacijami • konceptom je dodana razlaga, primer uporabe & oznaka za področje • vsebuje enobesedne & večbesedne nize, upoštevana je tudi metaforična & idiomatska raba Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Princeton WordNet (http://wordnet.princeton.edu/) • WordNet 3.0: Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Družina wordnet • Princeton WordNet: • Miller & Fellbaum, 1980 • EuroWordNet: • Vossen, 1993 • BalkaNet: • Christodoulakis, 2000 • Global WordNet Association: • 50 jezikov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
SloWNet 1.0(http://nl.ijs.si/slownet/) • Erjavec & Fišer (‘06) • Pristop: • razširitveni pristop (Vossen ‘00) • osnovasrbski wordnet (Krstev et al. ‘04) • Postopek izdelave: • avtomatsko prevajanje sinsetov na podlagi dvojezičnega slovarja • ID-je sinsetov in relacije med njimi smo prevzeli iz srbskega wordneta • razlage, primeri in št. pomenov smo izpustili • sinseti ročno popravljeni • Rezultat: • 5.000 sinsetov (BCS1,2&3) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Koristni viriza gradnjo wordnetov • obstoječi wordneti • elektronski slovarji • taksonomije • ontologije • korpusi Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Temeljni predpostavki • Prevodi so koristen vir za semantične informacije: • pomene večpomenskih besed pogosto prevajamo z različnimi besedami school-šola vs. school-jata • če imata dve ali več različnih besed isti prevod, imajo te besede pogosto skupne pomenske elemente fant-boy vs. deček-boy Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Hipoteza • z večjezičnim pristopom in vzporejanjem besedil na besedni ravni bomo: • ločili med posameznimi pomeni večpomenskih besed school-šola vs. school-jata oz. • pridobili množice sinonimov fant-boy vs. deček-boy Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1: viri • Multext-East: • George Orwell: “1984” • angleščina, češčina, romunščina, bolgarščina, slovenščina • 100,000 besed na jezik • stavčno poravnan, oblikoskladenjsko označen in lematiziran • Princeton Wordnet • BalkaNet Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1: postopek • predprocesiranje korpusa: • kodiranje in formatiranje • izločitev funkcijskih besed • avtomatsko vzporejanje na ravni besed (Uplug) • ekstrakcija dvojezičnih in večjezičnih leksikonov • primerjava večjezičnih leksikonov z obstoječimi wordneti • generiranje slovenskih sinsetov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:ponazoritev postopka • syn01 [party1] {stranka} • syn02 [party2] {zabava} • syn03 [army] {armada, vojska} Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:izluščeni leksikoni • dvojezični leksikoni: • En-Sl, En-Cz, En-Ro, En-Bg • upoštevane samo 1:1 povezave med besedami iste besedne vrste • upoštevane samo povezave, ki se pojavijo več kot enkrat • velikost leksikonov: ~ 1.500 vnosov • večjezični leksikoni: • upoštevane so vse različice prevodov neke angleške besede • En-Cz-Sl: 1.703 vnosov • En-Cz-Ro-Sl: 1.226 vnosov • En-Cz-Ro-Bg-Sl: 803 vnosov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:generirani sinseti • En-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:generirani sinseti • En-Cz-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:generirani sinseti • En-Cz-Ro-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:generirani sinseti • En-Cz-Ro-Bg-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:avtomatska evalvacija • primerjava z ročno ustvarjenim referenčnim wordnetom • merjenje priklica in natančnosti • upoštevani so samo sinseti iz skupine BCS • večjezični literali niso upoštevani • upoštevana je pripadnost literalov sinsetom Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:ročna evalvacija • iz vseh različic avtomatsko generiranih wordnetov smo izluščili 165 istih samostalniških sinsetov • postopek evalvacije: • Ali sinset vsebuje pravilen literal? • tipologija napak: hiponim, hipernim, soroden literal, napačen literal Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
lahki: specifični koncepti (rat, army, kitchen) • težki: zelo polisemne besede (face, place) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 1:evalvacija glede na št. jezikov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 2: viri • JRC-Acquis • zakonodaja EU v 20+ jezikih • vzporejen na ravni odstavkov (HunAlign) • pri eksperimentu smo uporabili: • angleški, češki in slovenski del korpusa • prvih 2.000 dokumentov • Princeton Wordnet • BalkaNet Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Esperiment 2:predprocesiranje • angleščina & slovenščina: • tokenizacija, oblikoskladenjsko označevanje & lematizacija (totale) • češčina: • tokenizacija, oblikoskladenjsko označevanje & lematizacija (Ajka) • vzporejanje: • samo polnopomenske besede • samo 1:1 odstavke • na stavčni in besedni ravni (Uplug) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 2:izluščeni leksikoni • dvojezični leksikoni: • En-Sl, En-Cz • upoštevane samo 1:1 povezave med besedami iste besedne vrste • upoštevane samo povezave, ki se pojavijo več kot enkrat • pojavnice, ki vsebujejo nečrkovne nize znakov, smo izločili • velikost leksikonov: ~ 10.000 vnosov • večjezični leksikoni: • upoštevane so vse različice prevodov neke angleške besede • En-Cz-Sl: 8.400 vnosov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 2:generirani sinseti Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
SLOWNJRC • relativno majhno število generiranih sinsetov glede na velikost korpusa (v primerjavi z Multext East) • sinseti sodijo v manjše število področij (lastnost korpusa) • povprečna dolžina sinseta je precej višja (slabša natančnost) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 2:avtomatska evalvacija Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 2:ročna evalvacija • 200 sinsetov iz 8 različnih področij: • 100 iz področij administracije, kemije, ekonomije in prava • 100 iz področij jezikoslovja, književnosti, založništva in matematike • postopek evalvacije: • Ali sinset vsebuje pravilen literal? • tipologija napak: vzporejanje, hiponim/hipernim, napašno razdvoumljanje Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Eksperiment 2:ročna evalvacija • napačno pripisovanje pomena večpomenskim besedam je veliko večje pri področjih, ki niso ustrezno zastopana v korpusu (D2) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Sklepi • semantične informacije iz vzporednih korpusov so se izkazale kot koristen vir za avtomatsko generiranje wordneta • kakovost sinsetov se izboljšuje s številom jezikov, vključenih v razdvoumljenje • za kakovost sinsetov je pomembna natančnost v vseh fazah predprocesiranja (od lematizacije do vzporejanja) • pristop najbolje deluje za samostalniške sinsete • pristop ne omogoča primernega razdvoumljanja zelo polisemnih besed (znan problem wordneta) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Načrti - večjezični • razširitev metode na večbesedne termine na podlagi leksiko-sintaktičnih vzorcev • dodajanje enopomenskih literalov, ki ne zahtevajo razdvoumljanja • zapolnjevanje lukenj v generirani hierarhiji Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Načrti - enojezični • preverjanje uspešnosti prenosljivosti konceptov med jeziki na podlagi referenčnega korpusa FidaPlus • razširitev wordneta na podlagi izluščenih relacij iz SSKJ in korpusa FidaPlus • … Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta
Hvala! Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta