1 / 17

Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine. Heli Uibo Keeletehnoloogia lektor J. Liivi 2-339 heli.uibo@ut.ee http://math.ut.ee/~heli_u. Süntaktiliselt märgendatud korpused – milleks?. Keeletehnoloogi töövahend:

edda
Download Presentation

Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine Heli Uibo Keeletehnoloogia lektor J. Liivi 2-339 heli.uibo@ut.ee http://math.ut.ee/~heli_u

  2. Süntaktiliselt märgendatud korpused – milleks? • Keeletehnoloogi töövahend: • Grammatikapõhiste meetodite puhul – süntaksianalüsaatori testimiseks • Statistiliste meetodite puhul – nii süntaksianalüsaatori “ehitamiseks” kui testimiseks • Lingvisti töövahend: võimaldab kontrollida süntaksiteooriate kehtivust praktikas, teha päringuid lausestruktuuride kohta jne.

  3. Mida tähendab süntaktiline märgendamine? 1. Fraasistruktuuri märgendamine

  4. Mida tähendab süntaktiline märgendamine? (2) 2. Sõltuvusstruktuuri märgendamine (Dům, který je drahý, si nekoupíme.)

  5. Mida tähendab süntaktiline märgendamine? (3) Pindsüntaktiline märgendamine (määratud iga sõna süntaktiline funktsioon lauses)

  6. Eesti keele süntaktiliselt märgendatud korpused • Pindsüntaktiliselt analüüsitud korpus EstCGC • Puude pank (treebank) Arborest • Puude pank eesti keele morfoloogia ja süntaksi õpetamiseks • Sofie paralleelpuudepank

  7. Lause pindsüntaktiliselt märgendatud korpusest <s> Mitmekesisus mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB @SUBJ on ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr // @+FMV elu elu+0 //_S_ com sg gen // @NN> vaieldamatu vaieldamatu+0 //_A_ pos sg nom // @AN> omapära oma_pära+0 //_S_ com sg nom // @PRD $. . //_Z_ Fst // </s>

  8. Eesti keele puude pank Arborest • Koostöö dr. Eckhard Bick’iga, University of Southern Denmark • Märgendussüsteem: VISL (http://beta.visl.sdu.dk) • Märgendatud nii süntaktilised funktsioonid (S = subject, P = predicate, O = object, A = adverbial,STA = statement, QUE = question, etc.) kui vormid (fraasistruktuur) (np, vp, pp, advp, adjp, fcl = finite clause, par = paratagma, etc.)

  9. Arborest • Automaatselt genereeritud EstCGC-st (2500 lauset) reeglitega, mis tuletavad pindsüntaktilisest märgendusest puustruktuuri • 149 lauset käsitsi parandatud • Reeglid genereerisid 1/3 lausete struktuurid korrektselt • Reegleid täiendatakse Veebileht http://corp.hum.sdu.dk/arborest.html

  10. Näitelause eesti keele puude pangast Arborest

  11. Sofie paralleelpuudepank • Alustatud projektiNordic Treebank Networkraames • Materjal – esimesed kaks peatükki Jostein Gaarder‘iromaanist "Sofie maailm" • Keeled: rootsi, saksa, norra, taani, islandi, fääri, eesti • Sofie Paralleelpuudepanga veebileht: http://omilia.uio.no/sofie (user: ntn, password: opera)

  12. Sofie Parallel Treebank Sophie's father was the captain of a big oil tanker, and was away for most of the year.

  13. Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid Projekt VISL (Visual Interactive Syntax Learning) Lõuna-Taani Ülikoolis • üle 20 keele; eesti keelega alustati 2004. a. • kõikide keelte jaoks loodud ühtses formaadis süntaktiliselt märgendatud korpused ehk puude pangad • veebileht: http://beta.visl.sdu.dk/visl

  14. Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid (2) Eesti keele õpetamisotstarbeline puude pank:http://beta.visl.sdu.dk/visl/et • 100 lauset tekstina ja visualiseeritavad süntaksipuuna • õppemängud: • sõnaliikide tundmine (“Shooting gallery", „Labyrinth“, “Wordfall”) • fraaside määramine • lause moodustajate süntaktiliste funktsioonide määramine (“Space rescue”)

  15. Võimalikud uurimisteemad • Korpuse EstCGC märgenduse korrektsuse ja ühtluse automaatne kontrollimine • Sofie paralleelpuudepanga uurimine: • erinevate keelte süntaktiliste struktuuride võrdlemine • automaatne fraaside joondamine • Veebipõhised süntaksimängud: • tutvustamine koolides ja tagasiside kogumine • õpetamisotstarbelise puude panga suurendamine • Katsetused masintõlke alal: näidetepõhine (EBMT = example-based machine translation) ja statistiline (SMT)

  16. Fraaside joondamine paralleelpuudepangas

  17. Süntaksjuhitav statistiline masintõlge • SMT tööriist GenPar: http://www.clsp.jhu.edu/ws2005/groups/statistical/GenPar.html • Vahend joondatud puustruktuuride visualiseerimiseks http://www.clsp.jhu.edu/ws2005/groups/statistical/mtv.html

More Related