Izraba večjezičnih virov za izgradnjo slovenskega wordneta

JOTA 2007 Izraba večjezičnih virovza izgradnjoslovenskega wordneta Darja Fišer Oddelek za prevajalstvo Filozofska fakulteta Univerza v Ljubljani 18. december 2007

Pregled predavanja • ozadje & motivacija • osnovne predpostavke & hipoteza • eksperiment 1 • eksperiment 2 • sklep & načrti za prihodnost • razprava Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Zakaj potrebujemosemantične leksikone • aplikacije, ki se spopadajo z razumevanjem & interpretacijo jezika • strojno prevajanje • klasifikacija dokumentov • luščenje informacij • povzemanje besedil • … • most med jezikom in znanjem, ki je z jezikom izraženo • semantična normalizacija • razdvoumljanje Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Semantični leksikoni • definirajo pomen neke besede glede na to, kako je povezan s pomeni drugih besed • strojno berljivi slovarji (LDOCE) • tezavri (Roget) • leksikalne zbirke (FrameNet, WordNet, MindNet) • ontologije & baze znanj (Cyc, ConceptNet, HowNet) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Princeton WordNet (http://wordnet.princeton.edu/) • leksikalna zbirka za modeliranje mentalnega leksikona • besede so urejene v koncepte, ki so med seboj povezani z relacijami • konceptom je dodana razlaga, primer uporabe & oznaka za področje • vsebuje enobesedne & večbesedne nize, upoštevana je tudi metaforična & idiomatska raba Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Princeton WordNet (http://wordnet.princeton.edu/) • WordNet 3.0: Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Družina wordnet • Princeton WordNet: • Miller & Fellbaum, 1980 • EuroWordNet: • Vossen, 1993 • BalkaNet: • Christodoulakis, 2000 • Global WordNet Association: • 50 jezikov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

SloWNet 1.0(http://nl.ijs.si/slownet/) • Erjavec & Fišer (‘06) • Pristop: • razširitveni pristop (Vossen ‘00) • osnovasrbski wordnet (Krstev et al. ‘04) • Postopek izdelave: • avtomatsko prevajanje sinsetov na podlagi dvojezičnega slovarja • ID-je sinsetov in relacije med njimi smo prevzeli iz srbskega wordneta • razlage, primeri in št. pomenov smo izpustili • sinseti ročno popravljeni • Rezultat: • 5.000 sinsetov (BCS1,2&3) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Koristni viriza gradnjo wordnetov • obstoječi wordneti • elektronski slovarji • taksonomije • ontologije • korpusi Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Temeljni predpostavki • Prevodi so koristen vir za semantične informacije: • pomene večpomenskih besed pogosto prevajamo z različnimi besedami school-šola vs. school-jata • če imata dve ali več različnih besed isti prevod, imajo te besede pogosto skupne pomenske elemente fant-boy vs. deček-boy Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Hipoteza • z večjezičnim pristopom in vzporejanjem besedil na besedni ravni bomo: • ločili med posameznimi pomeni večpomenskih besed school-šola vs. school-jata oz. • pridobili množice sinonimov fant-boy vs. deček-boy Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1: viri • Multext-East: • George Orwell: “1984” • angleščina, češčina, romunščina, bolgarščina, slovenščina • 100,000 besed na jezik • stavčno poravnan, oblikoskladenjsko označen in lematiziran • Princeton Wordnet • BalkaNet Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1: postopek • predprocesiranje korpusa: • kodiranje in formatiranje • izločitev funkcijskih besed • avtomatsko vzporejanje na ravni besed (Uplug) • ekstrakcija dvojezičnih in večjezičnih leksikonov • primerjava večjezičnih leksikonov z obstoječimi wordneti • generiranje slovenskih sinsetov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:ponazoritev postopka • syn01 [party1] {stranka} • syn02 [party2] {zabava} • syn03 [army] {armada, vojska} Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:izluščeni leksikoni • dvojezični leksikoni: • En-Sl, En-Cz, En-Ro, En-Bg • upoštevane samo 1:1 povezave med besedami iste besedne vrste • upoštevane samo povezave, ki se pojavijo več kot enkrat • velikost leksikonov: ~ 1.500 vnosov • večjezični leksikoni: • upoštevane so vse različice prevodov neke angleške besede • En-Cz-Sl: 1.703 vnosov • En-Cz-Ro-Sl: 1.226 vnosov • En-Cz-Ro-Bg-Sl: 803 vnosov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:generirani sinseti • En-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:generirani sinseti • En-Cz-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:generirani sinseti • En-Cz-Ro-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:generirani sinseti • En-Cz-Ro-Bg-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:avtomatska evalvacija • primerjava z ročno ustvarjenim referenčnim wordnetom • merjenje priklica in natančnosti • upoštevani so samo sinseti iz skupine BCS • večjezični literali niso upoštevani • upoštevana je pripadnost literalov sinsetom Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:ročna evalvacija • iz vseh različic avtomatsko generiranih wordnetov smo izluščili 165 istih samostalniških sinsetov • postopek evalvacije: • Ali sinset vsebuje pravilen literal? • tipologija napak: hiponim, hipernim, soroden literal, napačen literal Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

lahki: specifični koncepti (rat, army, kitchen) • težki: zelo polisemne besede (face, place) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 1:evalvacija glede na št. jezikov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 2: viri • JRC-Acquis • zakonodaja EU v 20+ jezikih • vzporejen na ravni odstavkov (HunAlign) • pri eksperimentu smo uporabili: • angleški, češki in slovenski del korpusa • prvih 2.000 dokumentov • Princeton Wordnet • BalkaNet Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Esperiment 2:predprocesiranje • angleščina & slovenščina: • tokenizacija, oblikoskladenjsko označevanje & lematizacija (totale) • češčina: • tokenizacija, oblikoskladenjsko označevanje & lematizacija (Ajka) • vzporejanje: • samo polnopomenske besede • samo 1:1 odstavke • na stavčni in besedni ravni (Uplug) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 2:izluščeni leksikoni • dvojezični leksikoni: • En-Sl, En-Cz • upoštevane samo 1:1 povezave med besedami iste besedne vrste • upoštevane samo povezave, ki se pojavijo več kot enkrat • pojavnice, ki vsebujejo nečrkovne nize znakov, smo izločili • velikost leksikonov: ~ 10.000 vnosov • večjezični leksikoni: • upoštevane so vse različice prevodov neke angleške besede • En-Cz-Sl: 8.400 vnosov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 2:generirani sinseti Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

SLOWNJRC • relativno majhno število generiranih sinsetov glede na velikost korpusa (v primerjavi z Multext East) • sinseti sodijo v manjše število področij (lastnost korpusa) • povprečna dolžina sinseta je precej višja (slabša natančnost) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 2:avtomatska evalvacija Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 2:ročna evalvacija • 200 sinsetov iz 8 različnih področij: • 100 iz področij administracije, kemije, ekonomije in prava • 100 iz področij jezikoslovja, književnosti, založništva in matematike • postopek evalvacije: • Ali sinset vsebuje pravilen literal? • tipologija napak: vzporejanje, hiponim/hipernim, napašno razdvoumljanje Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Eksperiment 2:ročna evalvacija • napačno pripisovanje pomena večpomenskim besedam je veliko večje pri področjih, ki niso ustrezno zastopana v korpusu (D2) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Sklepi • semantične informacije iz vzporednih korpusov so se izkazale kot koristen vir za avtomatsko generiranje wordneta • kakovost sinsetov se izboljšuje s številom jezikov, vključenih v razdvoumljenje • za kakovost sinsetov je pomembna natančnost v vseh fazah predprocesiranja (od lematizacije do vzporejanja) • pristop najbolje deluje za samostalniške sinsete • pristop ne omogoča primernega razdvoumljanja zelo polisemnih besed (znan problem wordneta) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Načrti - večjezični • razširitev metode na večbesedne termine na podlagi leksiko-sintaktičnih vzorcev • dodajanje enopomenskih literalov, ki ne zahtevajo razdvoumljanja • zapolnjevanje lukenj v generirani hierarhiji Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Načrti - enojezični • preverjanje uspešnosti prenosljivosti konceptov med jeziki na podlagi referenčnega korpusa FidaPlus • razširitev wordneta na podlagi izluščenih relacij iz SSKJ in korpusa FidaPlus • … Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Hvala! Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Presentation Transcript

ZGODOVINA ALPINIZMA DOMA IN V SVETU

Križanke in druge uganke

UPORABA DRUŽBENEGA PRODUKTA

Andreja Toš Zajšek Univ. dipl. pravnica Samostojna pravna svetovalka ZSSS SPREMEMBE ZAKONA O DELOVNIH RAZMERJIH IN T

ENERGETSKA SANACIJA VRSTNIH HIŠ V NASELJU TRZIN – MLAKE

Seminarske naloge (iskanje virov, pisanje – osnovne informacije)

ZGODOVINA SLOVENSKEGA (KNJIŽNEGA) JEZIKA IN JEZIKOSLOVJA

Tuji katalogizacijski pravilniki

REPUBLIKA SLOVENIJA MINISTRSTVO ZA OKOLJE IN PROSTOR DIREKTORAT ZA EVROPSKE ZADEVE IN INVESTICIJE

LICENCIRANJE NOGOMETNIH KLUBOV Sistem licenciranja kot temelj stabilnega nogometa

Varstvo okolja I

Medjezično iskanje (MI) 2

CTK – uporaba virov in storitev

XML in TEI Tomaž Erjavec

PREDSTAVITEV IZVAJANJA NAČRTA VREDNOTNEJA OPERATIVNEGA PROGRAMA RAZVOJA ČLOVEŠKIH VIROV

UČINKOVITO UPRAVLJANJE ČLOVEŠKIH VIROV INFORMACIJSKA PODPORA mag. Lidija Breznik

STATUS SLOVENSKEGA NARAVNEGA ZDRAVILIŠČA

Uporaba informacijskih virov

KAJ SO HORMONI?

Berlin

REPUBLIKA SLOVENIJA MINISTRSTVO ZA OKOLJE IN PROSTOR DIREKTORAT ZA EVROPSKE ZADEVE IN INVESTICIJE

KAZALNIKI FINANCIRANJA