240 likes | 477 Views
Puudepangad ( treebanks ). Heli Uibo TÜ arvutiteaduse instituut. Ülevaade. Mis on treebank (TB) ? Milleks TB-sid vaja on? TB-des kasutatavad süntaksimudelid TB-de loomise ja kasutamise vahendid, visualiseerimine Kuulsamad TB-d maailmas Nordic Treebank Network
E N D
Puudepangad (treebanks) Heli Uibo TÜ arvutiteaduse instituut
Ülevaade • Mis on treebank (TB)? • Milleks TB-sid vaja on? • TB-des kasutatavad süntaksimudelid • TB-de loomise ja kasutamise vahendid, visualiseerimine • Kuulsamad TB-d maailmas • Nordic Treebank Network • Eesti keele süntaksipuude pank – mis on olemas ja mida vaja teha?
Mis on puudepank? • Puudepank (inglise k. treebank) on süntaktiliselt (+ semantiliselt) märgendatud tekstikorpus. • Korpuse tekstid võimalikult loomulikku päritolu, näiteks ajalehetekstid, suuline kõne. • Märgendus peab võimaldama iga lause jaoks konstrueerida puu, seega peab kasutatav süntaksimudel kirjeldama lause osade vahelisi sõltuvussuhteid.
Milleks puudepanku vaja on? • Keeletarkvara testimine, sh. eriti • süntaksianalüsaatorid • leksikograafi abivahendid • masintõlge • küsimus-vastussüsteemid • lingvistiliste teooriate paikapidavuse kontroll • masintõlkesüsteemide arendamine (eeldab paralleel-puudepanka, millest tuletatakse struktuuride transformatsioonireeglid)
Puudepankades kasutatavad süntaksimudelid • Dependency Grammar erinevad realisatsioonid • Head-driven Phrase Structure Grammar (HPSG) = puustruktuur + tippude tunnusstruktuurid
Puudepanga loomine • Eesmärk on lingvistiline korrektsus, seepärast toimub märgendamine • täielikult käsitsi või • poolautomaatselt (näiteks esmalt rakendatakse tekstile süntaksianalüsaatorit, märgendust parandavad ja täiendavad eksperdid)
Puudepanga kasutamine • Päringud: • Millistes kontekstides esines antud struktuur? Jne. • Paralleelpuudepankades: Kuidas tõlgiti mingi struktuur ühest keelest teise? masintõlkesüsteemid • Keeletarkvara arendamine • parserid • leksikograafi abivahendid • masintõlge • küsimus-vastussüsteemid
Visualiseerimisvahendid • Märgendatud teksti põhjal joonistatakse välja süntaksipuu • Ka puudepanga arendamise tarkvara võib olla graafilise kasutajaliidesega - hõlbustab lingvisti tööd
Kuulsamad puudepangad maailmas • Penn Treebank – Univ of Pennsylvania • Prague Treebank (tšehhi k.) • Verbmobil (saksa) • TiGer (saksa) • LinGO – CSLI, Stanford (HPSG)
Nordic Treebank Network • Osalejad: • Rootsi: Växjö, Göteborgi, Stockholmi, Uppsala Ülikool, KTH (Stockholm) • Norra: NTNU (Trondheim), Bergeni ja Oslo Ülikool • Taani: CBS (Copenhagen Business School), SDU (Univ. of Southern Denmark) • Island: Islandi Ülikool • Soome: CSC (Scientific Computing Ltd.), Espoo • Eesti: Tartu Ülikool
Nordic Treebank Network • Eesmärgid: • Dokumenteerida olemasolevad ressursid ja jooksvad projektid korpuste süntaktilise märgendamise alal. • Toetada keeletehnoloogia-alast doktoriõpet Põhjamaades. • Luua väike paralleel-puudepank. • samad tekstid, tõlke-relatsioonis • sama märgendussüsteem • Toetada suuremate puudepankade loomist Põhjamaade keelte jaoks. • Rahvusvaheline koostöö.
Nordic Treebank Network • Tegevused: • Rahvusvaheline konverents TLT 2003 (Treebanks and Linguistic Theories) 14.-15. nov. 2003 Växjö’s • PhD kursused: • 2004 kevadel ja sügisel • Teemad (esialgsed): • Treebanks for spoken language (Jens Allwood) • Dependency structures in treebanks (Sabine Kirchmeier-Andersen) • Treebanks: Formats, Tools and Usage (Martin Volk)
Nordic Treebank Network • Ressursside ja projektide dokumenteerimine • Ühiselt kasutatava puudepanga arendamise tarkvara hankimine/kirjutamine • Esimene kohtumine 17.-18. sept. 2003
Eesti keele süntaksipuude pank – mis on olemas? • kitsenduste grammatikal (constraint grammar) põhinevad • morfoloogiline ühestaja (T. Puolakainen), valib sõnavormi morfoloogilistest tõlgendustest välja ühe ja õige (rakendatakse pärast morf. analüsaatorit) • süntaksianalüsaator (K. Müürisep) = shallow syntactic parser, määrab sõnade süntaktilised funktsioonid lauses • Tulemused (2000. a. lõpp): • recall = 99.2%, precision = 89.6%, kui sisendis pole vigu (käsitsi üle kontrollitud) • recall = 96.4%, precision = 78.1%, kui sisend on automaatselt morfoloogiliselt analüüsitud.
Eesti keele süntaksipuude pank – mis on olemas? • kitsenduste grammatika järgi morfoloogiliselt ja süntaktiliselt märgendatud ja ühestatud korpus mahuga ca 123 000 sõna, (ilukirjandus 106 500 + ajalehed 10 000 + juura 6000) • eelmärgendamiseks on kasutatud programme estmorf (H.-J. Kaalep), estyhmm (Markovi peitmudelil põhinev statistiline morf. ühestaja, H.-J. Kaalep, T. Vaino) ja CGP (constraint grammar parser, K. Müürisep)
Eesti k. puudepank – mis olemas? • Märgendamine viiakse lõpule käsitsi • lõplik morfoloogiline ühestamine pärast programmide estmorf ja estyhmm rakendamist; • lõplik süntaktiline ühestamine pärast programmi CGP rakendamist. • Metoodika: • Ühte ja sama teksti ühestavad sõltumatult kaks lingvisti. • Tulemusi võrreldakse automaatselt. • Kui mõlemad lingvistid on määranud sõnale sama süntaktilise funktsiooni, siis loetakse see õigeks. • Kui hinnangud lahknevad, siis probleemi arutatakse ja lahendatakse erimeelsused.
Eesti keele kitsenduste grammatika süntaksianalüsaatori märgendid • SUBJ – alus • OBJ – sihitis • +FMV, -FMV, +FCV, -FCV – öeldise märgendid • PRD – öeldistäide • ADVL – määrus • NN>, <NN – nimisõnaline ees- ja järeltäiend • AN>, <AN – omadussõnaline ees- ja järeltäiend • P>, <P – kaassõnafraasi laiend • Q>, <Q – kvantorifraasi laiend
Näide märgendatud lausest Mitmekesisus mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB @SUBJ on ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr // @+FMV elu elu+0 //_S_ com sg gen // @NN> vaieldamatu vaieldamatu+0 //_A_ pos sg nom // @AN> omapära oma_pära+0 //_S_ com sg nom // @PRD $, $, //_Z_ Com //
Näide märgendatud lausest (järg) selle see+0 //_P_ dem sg gen // **CLB @P> vastu vastu+0 //_K_ post #gen // @ADVL ei ei+0 //_V_ aux neg // @NEG tohi tohti+0 //_V_ mod indic pres ps neg #FinV #Intr // @+FCV kätt käsi+tt //_S_ com sg part // @OBJ tõsta tõst+a //_V_ main inf #NGP-P // @-FMV $. $. //_Z_ Fst //
Fraasistruktuuripuu (1. osalause) S NP VP N auxV N mitmekesisus on omapära Adj vaieldamatu N elu
Fraasistruktuuripuu (2. osalause) S PP VP N P neg modV cV selle vastu ei tohi N V kätt tõsta
Probleem: puu joonistamiseks ei piisa CG-tüüpi pindsüntaktilisest analüüsist • Võimalik lahendus: üleminek FDG-le (Functional Dependency Grammar) – sõltuvussuhted paremini väljendatud, seejuures võimalik ka fraasistruktuuri taastamine sõltuvusstruktuurist FDG realisatsioon: Connexor OY (T. Järvinen jt.) www.conexor.fi/demos
Linke • http://www.bultreebank.org/Proceedings.html– Proceedings of The First Workshop on Treebanks and Linguistic Theories (TLT 2002) Sozopol, Bulgaaria • http://wodan.let.rug.nl/vannoord_bin/alpino –Alpino treebank (Groningeni Ülikool, hollandi k., näitelaused olemas) • http://www.speech.kth.se/~bea/treebank.html–Beata Megyesi lingid • http://faculty.washington.edu/dillon/GramResources/GramResources.html– resources for studying English syntax online
Lõpetuseks Eesti keele puudepank ootab tegijaid (põhitöö 2004-..., aga tausta võib uurima hakata varem).