1 / 37

Izraba večjezičnih virov za izgradnjo slovenskega wordneta

JOTA 2007. Izraba večjezičnih virov za izgradnjo slovenskega wordneta. Darja Fišer Oddelek za prevajalstvo Filozofska fakulteta Univerza v Ljubljan i. 18. december 2007. Pregled predavanja. ozadje & motivacija osnovne predpostavke & hipoteza eksperiment 1 eksperiment 2

erasto
Download Presentation

Izraba večjezičnih virov za izgradnjo slovenskega wordneta

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. JOTA 2007 Izraba večjezičnih virovza izgradnjoslovenskega wordneta Darja Fišer Oddelek za prevajalstvo Filozofska fakulteta Univerza v Ljubljani 18. december 2007

  2. Pregled predavanja • ozadje & motivacija • osnovne predpostavke & hipoteza • eksperiment 1 • eksperiment 2 • sklep & načrti za prihodnost • razprava Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  3. Zakaj potrebujemosemantične leksikone • aplikacije, ki se spopadajo z razumevanjem & interpretacijo jezika • strojno prevajanje • klasifikacija dokumentov • luščenje informacij • povzemanje besedil • … • most med jezikom in znanjem, ki je z jezikom izraženo • semantična normalizacija • razdvoumljanje Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  4. Semantični leksikoni • definirajo pomen neke besede glede na to, kako je povezan s pomeni drugih besed • strojno berljivi slovarji (LDOCE) • tezavri (Roget) • leksikalne zbirke (FrameNet, WordNet, MindNet) • ontologije & baze znanj (Cyc, ConceptNet, HowNet) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  5. Princeton WordNet (http://wordnet.princeton.edu/) • leksikalna zbirka za modeliranje mentalnega leksikona • besede so urejene v koncepte, ki so med seboj povezani z relacijami • konceptom je dodana razlaga, primer uporabe & oznaka za področje • vsebuje enobesedne & večbesedne nize, upoštevana je tudi metaforična & idiomatska raba Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  6. Princeton WordNet (http://wordnet.princeton.edu/) • WordNet 3.0: Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  7. Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  8. Družina wordnet • Princeton WordNet: • Miller & Fellbaum, 1980 • EuroWordNet: • Vossen, 1993 • BalkaNet: • Christodoulakis, 2000 • Global WordNet Association: • 50 jezikov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  9. SloWNet 1.0(http://nl.ijs.si/slownet/) • Erjavec & Fišer (‘06) • Pristop: • razširitveni pristop (Vossen ‘00) • osnovasrbski wordnet (Krstev et al. ‘04) • Postopek izdelave: • avtomatsko prevajanje sinsetov na podlagi dvojezičnega slovarja • ID-je sinsetov in relacije med njimi smo prevzeli iz srbskega wordneta • razlage, primeri in št. pomenov smo izpustili • sinseti ročno popravljeni • Rezultat: • 5.000 sinsetov (BCS1,2&3) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  10. Koristni viriza gradnjo wordnetov • obstoječi wordneti • elektronski slovarji • taksonomije • ontologije • korpusi Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  11. Temeljni predpostavki • Prevodi so koristen vir za semantične informacije: • pomene večpomenskih besed pogosto prevajamo z različnimi besedami school-šola vs. school-jata • če imata dve ali več različnih besed isti prevod, imajo te besede pogosto skupne pomenske elemente fant-boy vs. deček-boy Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  12. Hipoteza • z večjezičnim pristopom in vzporejanjem besedil na besedni ravni bomo: • ločili med posameznimi pomeni večpomenskih besed school-šola vs. school-jata oz. • pridobili množice sinonimov fant-boy vs. deček-boy Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  13. Eksperiment 1: viri • Multext-East: • George Orwell: “1984” • angleščina, češčina, romunščina, bolgarščina, slovenščina • 100,000 besed na jezik • stavčno poravnan, oblikoskladenjsko označen in lematiziran • Princeton Wordnet • BalkaNet Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  14. Eksperiment 1: postopek • predprocesiranje korpusa: • kodiranje in formatiranje • izločitev funkcijskih besed • avtomatsko vzporejanje na ravni besed (Uplug) • ekstrakcija dvojezičnih in večjezičnih leksikonov • primerjava večjezičnih leksikonov z obstoječimi wordneti • generiranje slovenskih sinsetov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  15. Eksperiment 1:ponazoritev postopka • syn01 [party1] {stranka} • syn02 [party2] {zabava} • syn03 [army] {armada, vojska} Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  16. Eksperiment 1:izluščeni leksikoni • dvojezični leksikoni: • En-Sl, En-Cz, En-Ro, En-Bg • upoštevane samo 1:1 povezave med besedami iste besedne vrste • upoštevane samo povezave, ki se pojavijo več kot enkrat • velikost leksikonov: ~ 1.500 vnosov • večjezični leksikoni: • upoštevane so vse različice prevodov neke angleške besede • En-Cz-Sl: 1.703 vnosov • En-Cz-Ro-Sl: 1.226 vnosov • En-Cz-Ro-Bg-Sl: 803 vnosov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  17. Eksperiment 1:generirani sinseti • En-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  18. Eksperiment 1:generirani sinseti • En-Cz-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  19. Eksperiment 1:generirani sinseti • En-Cz-Ro-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  20. Eksperiment 1:generirani sinseti • En-Cz-Ro-Bg-Sl Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  21. Eksperiment 1:avtomatska evalvacija • primerjava z ročno ustvarjenim referenčnim wordnetom • merjenje priklica in natančnosti • upoštevani so samo sinseti iz skupine BCS • večjezični literali niso upoštevani • upoštevana je pripadnost literalov sinsetom Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  22. Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  23. Eksperiment 1:ročna evalvacija • iz vseh različic avtomatsko generiranih wordnetov smo izluščili 165 istih samostalniških sinsetov • postopek evalvacije: • Ali sinset vsebuje pravilen literal? • tipologija napak: hiponim, hipernim, soroden literal, napačen literal Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  24. lahki: specifični koncepti (rat, army, kitchen) • težki: zelo polisemne besede (face, place) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  25. Eksperiment 1:evalvacija glede na št. jezikov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  26. Eksperiment 2: viri • JRC-Acquis • zakonodaja EU v 20+ jezikih • vzporejen na ravni odstavkov (HunAlign) • pri eksperimentu smo uporabili: • angleški, češki in slovenski del korpusa • prvih 2.000 dokumentov • Princeton Wordnet • BalkaNet Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  27. Esperiment 2:predprocesiranje • angleščina & slovenščina: • tokenizacija, oblikoskladenjsko označevanje & lematizacija (totale) • češčina: • tokenizacija, oblikoskladenjsko označevanje & lematizacija (Ajka) • vzporejanje: • samo polnopomenske besede • samo 1:1 odstavke • na stavčni in besedni ravni (Uplug) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  28. Eksperiment 2:izluščeni leksikoni • dvojezični leksikoni: • En-Sl, En-Cz • upoštevane samo 1:1 povezave med besedami iste besedne vrste • upoštevane samo povezave, ki se pojavijo več kot enkrat • pojavnice, ki vsebujejo nečrkovne nize znakov, smo izločili • velikost leksikonov: ~ 10.000 vnosov • večjezični leksikoni: • upoštevane so vse različice prevodov neke angleške besede • En-Cz-Sl: 8.400 vnosov Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  29. Eksperiment 2:generirani sinseti Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  30. SLOWNJRC • relativno majhno število generiranih sinsetov glede na velikost korpusa (v primerjavi z Multext East) • sinseti sodijo v manjše število področij (lastnost korpusa) • povprečna dolžina sinseta je precej višja (slabša natančnost) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  31. Eksperiment 2:avtomatska evalvacija Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  32. Eksperiment 2:ročna evalvacija • 200 sinsetov iz 8 različnih področij: • 100 iz področij administracije, kemije, ekonomije in prava • 100 iz področij jezikoslovja, književnosti, založništva in matematike • postopek evalvacije: • Ali sinset vsebuje pravilen literal? • tipologija napak: vzporejanje, hiponim/hipernim, napašno razdvoumljanje Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  33. Eksperiment 2:ročna evalvacija • napačno pripisovanje pomena večpomenskim besedam je veliko večje pri področjih, ki niso ustrezno zastopana v korpusu (D2) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  34. Sklepi • semantične informacije iz vzporednih korpusov so se izkazale kot koristen vir za avtomatsko generiranje wordneta • kakovost sinsetov se izboljšuje s številom jezikov, vključenih v razdvoumljenje • za kakovost sinsetov je pomembna natančnost v vseh fazah predprocesiranja (od lematizacije do vzporejanja) • pristop najbolje deluje za samostalniške sinsete • pristop ne omogoča primernega razdvoumljanja zelo polisemnih besed (znan problem wordneta) Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  35. Načrti - večjezični • razširitev metode na večbesedne termine na podlagi leksiko-sintaktičnih vzorcev • dodajanje enopomenskih literalov, ki ne zahtevajo razdvoumljanja • zapolnjevanje lukenj v generirani hierarhiji Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  36. Načrti - enojezični • preverjanje uspešnosti prenosljivosti konceptov med jeziki na podlagi referenčnega korpusa FidaPlus • razširitev wordneta na podlagi izluščenih relacij iz SSKJ in korpusa FidaPlus • … Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  37. Hvala! Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

More Related