170 likes | 348 Views
Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine. Heli Uibo Keeletehnoloogia lektor J. Liivi 2-339 heli.uibo@ut.ee http://math.ut.ee/~heli_u. Süntaktiliselt märgendatud korpused – milleks?. Keeletehnoloogi töövahend:
E N D
Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine Heli Uibo Keeletehnoloogia lektor J. Liivi 2-339 heli.uibo@ut.ee http://math.ut.ee/~heli_u
Süntaktiliselt märgendatud korpused – milleks? • Keeletehnoloogi töövahend: • Grammatikapõhiste meetodite puhul – süntaksianalüsaatori testimiseks • Statistiliste meetodite puhul – nii süntaksianalüsaatori “ehitamiseks” kui testimiseks • Lingvisti töövahend: võimaldab kontrollida süntaksiteooriate kehtivust praktikas, teha päringuid lausestruktuuride kohta jne.
Mida tähendab süntaktiline märgendamine? 1. Fraasistruktuuri märgendamine
Mida tähendab süntaktiline märgendamine? (2) 2. Sõltuvusstruktuuri märgendamine (Dům, který je drahý, si nekoupíme.)
Mida tähendab süntaktiline märgendamine? (3) Pindsüntaktiline märgendamine (määratud iga sõna süntaktiline funktsioon lauses)
Eesti keele süntaktiliselt märgendatud korpused • Pindsüntaktiliselt analüüsitud korpus EstCGC • Puude pank (treebank) Arborest • Puude pank eesti keele morfoloogia ja süntaksi õpetamiseks • Sofie paralleelpuudepank
Lause pindsüntaktiliselt märgendatud korpusest <s> Mitmekesisus mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB @SUBJ on ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr // @+FMV elu elu+0 //_S_ com sg gen // @NN> vaieldamatu vaieldamatu+0 //_A_ pos sg nom // @AN> omapära oma_pära+0 //_S_ com sg nom // @PRD $. . //_Z_ Fst // </s>
Eesti keele puude pank Arborest • Koostöö dr. Eckhard Bick’iga, University of Southern Denmark • Märgendussüsteem: VISL (http://beta.visl.sdu.dk) • Märgendatud nii süntaktilised funktsioonid (S = subject, P = predicate, O = object, A = adverbial,STA = statement, QUE = question, etc.) kui vormid (fraasistruktuur) (np, vp, pp, advp, adjp, fcl = finite clause, par = paratagma, etc.)
Arborest • Automaatselt genereeritud EstCGC-st (2500 lauset) reeglitega, mis tuletavad pindsüntaktilisest märgendusest puustruktuuri • 149 lauset käsitsi parandatud • Reeglid genereerisid 1/3 lausete struktuurid korrektselt • Reegleid täiendatakse Veebileht http://corp.hum.sdu.dk/arborest.html
Sofie paralleelpuudepank • Alustatud projektiNordic Treebank Networkraames • Materjal – esimesed kaks peatükki Jostein Gaarder‘iromaanist "Sofie maailm" • Keeled: rootsi, saksa, norra, taani, islandi, fääri, eesti • Sofie Paralleelpuudepanga veebileht: http://omilia.uio.no/sofie (user: ntn, password: opera)
Sofie Parallel Treebank Sophie's father was the captain of a big oil tanker, and was away for most of the year.
Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid Projekt VISL (Visual Interactive Syntax Learning) Lõuna-Taani Ülikoolis • üle 20 keele; eesti keelega alustati 2004. a. • kõikide keelte jaoks loodud ühtses formaadis süntaktiliselt märgendatud korpused ehk puude pangad • veebileht: http://beta.visl.sdu.dk/visl
Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid (2) Eesti keele õpetamisotstarbeline puude pank:http://beta.visl.sdu.dk/visl/et • 100 lauset tekstina ja visualiseeritavad süntaksipuuna • õppemängud: • sõnaliikide tundmine (“Shooting gallery", „Labyrinth“, “Wordfall”) • fraaside määramine • lause moodustajate süntaktiliste funktsioonide määramine (“Space rescue”)
Võimalikud uurimisteemad • Korpuse EstCGC märgenduse korrektsuse ja ühtluse automaatne kontrollimine • Sofie paralleelpuudepanga uurimine: • erinevate keelte süntaktiliste struktuuride võrdlemine • automaatne fraaside joondamine • Veebipõhised süntaksimängud: • tutvustamine koolides ja tagasiside kogumine • õpetamisotstarbelise puude panga suurendamine • Katsetused masintõlke alal: näidetepõhine (EBMT = example-based machine translation) ja statistiline (SMT)
Süntaksjuhitav statistiline masintõlge • SMT tööriist GenPar: http://www.clsp.jhu.edu/ws2005/groups/statistical/GenPar.html • Vahend joondatud puustruktuuride visualiseerimiseks http://www.clsp.jhu.edu/ws2005/groups/statistical/mtv.html