370 likes | 736 Views
Eesti vahekeele korpuse hetkeseis ja arengusuunad. Pille Eslon & Mart Laanpere Tallinna Ülikool EKKTT 19. – 21. 11. 2007. Preambula. Eesti vahekeele korpuse ( http://evkk.tlu.ee ) loomine ja arendamine on olnud seotud järgmiste projektidega:
E N D
Eesti vahekeele korpuse hetkeseis ja arengusuunad Pille Eslon & Mart Laanpere Tallinna Ülikool EKKTT 19. – 21. 11. 2007
Preambula • Eesti vahekeele korpuse (http://evkk.tlu.ee) loomine ja arendamine on olnud seotud järgmiste projektidega: • sihtfinantseeritav teema nr 0132493s03 “Eesti keelekeskkonna arengu analüüs, modelleerimine ja juhtimine” (2003–2007) • riiklik programm “Eesti keel ja rahvuslik mälu” (2004–2008), grant R 05/01 “Koodivahetuse, vahe- ja lastekeele korpuste töötlemine ja haldamine” • ETFi grant nr 6151 “Koodivahetuse, eesti vahekeele ning lastekeele andmekorpuste koostamine ja üldkirjeldus” (2005–2008)
Koostööpartnerid • Tallinna Ülikooli Haridustehnoloogia keskus (M. Laanpere, V. Rebas) • haridus- ja keeletehnoloogiline tugi, koostöö algas kolme aasta eest • Oulu ülikooli (H. Sulkala, J.-H. Jantunen) • esimene soome õppijakeele korpus, projekt algas eelmisel aastal • Ühisseminarid ja publikatsioonid • Esimene sügisseminar “Tallinna Ülikooli keelekorpuste optimaalsus, töötlemine ja kasutamine” (20.10.2006) • Teine sügisseminar “Õppijakeele analüüs: võimalused, probleemid, vajadused” (1.11.2007) • Talveseminar “Standardtarkvara rakendamisest õppijakeele uurimises” (15.01. – 17.01.2008)
Mitteametlik töögrupp • E. Dovgan, MSc (tekstide sisestamine) • A. Kostenko – TLÜ tõlkekeskuse magistrant (märgendaja) • K. Paldrok – EBSi eesti keele õpetaja (märgendaja) • V. Rebas (haridustehnoloog), TLÜ üliõpilane, HTK insener • A. Smõreitšik, TLÜ lingvistika magistrant • M. Kitsnik, magister (eesti keele õpikute autor ja keeleõpetaja) • Helena Metslang, TÜ doktorant, töötab MEISis • P. Eslon, TLÜ üld- ja rakenduslingvistika õppetooli vanemteadur
Esimesed tulemused • Magistritööd: • kaitstud: M. Kitsnik. Õppijakeele uurimise ja arendamise võimalusi Eesti vahekeele korpuse põhjal (eituse väljendamise näitel). Tallinn, 2007 • Valmimas: A. Smõreitšik. Seoste iseloom vealiikide vahel (korpuspõhine uurimus) • Bakalaureusetööd: • tüvevahelduse uurimine
Mis on õppijakeel? • Õppijakeel (learner language) – P.S.Corder • Seoses teise keele / võõrkeele omandamisega (second / foreign language aquisition) • Kesksel kohal keelevea mõiste (error) • Tugineb veaanalüüsile (error analysis) • Vahekeel (interlanguage) – L.Selinker • Biheivioristlik keelekäsitlus ja interferentsiteooria • Kesksel kohal lähtekeele negatiivne / positiivne ülekanne (transfer) • Tugineb lähte- ja sihtkeele kontrastiivanalüüsile (contrastive analysis) • Keelevariant, mida õppijad sihtkeeles loovad
Mis on õppijakeelekorpus? • Õppijakeelekorpus (learner corpus, learner corpora) – vahekeele korpus (interlanguage corpora) – teie keele korpus (L2 corpora) • elektrooniline keeleressurss • teise keele / võõrkeeleõppija loodud autentsete kirjalike tekstide või suulise kõnekeele näidete elektrooniline kogu, milles keelevead on klassifitseeritud ja märgendatud • korpuse töötlemisel saab kasutada standardtarkvara, kombineerida ja täiendada olemasolevaid keeletehnoloogilisi rakendusi ning arendada uusi
Õppijakeelekorpusi maailmas: inglise sihtkeelega õppijakeelekorpused (English LC) • 1980ndad -European Science Foundation Second Language Data Bank • Cambridge Learner Corpus • Longman Learners’ Corpus • Interntional Corpus of Learners’ English(ICLE) - http://cecl.fltr.ucl.ac.be/; http://cecl.fltr.ucl.ac.be/Cecl-Projects/Icle/icle.htm • Antwerp Corpus of Institutional Discourse • Corpus of English by Japanese Learners’ • jt
Mitte-inglise sihtkeelega õppijakeelekorpused (non-English LC) • Skandinaavias: 1970ndad Rootsi sihtkeelega SSM korpus (Svenska som Målspråk) • ASU (Andraspråkets StrukturUtvecklingkorpus) • SVANTE korpus • CrossCheck(Svensk grammatikkontroll för andraspråksskribenter) • ASK(Language learner corpus of Norwegian as a second language) • Prantsuse keel: FRIDAja FreeText • jt
Mis eesmärgil õppijakeelekorpusi kasutatakse? • Uurimistöö eesmärgil, et viia vastavusse õppija vajadused ja keeleõpe • nt Louvaini Ülikooli ICLE • Uppsala Ülikooli USE • Kommertseesmärgid • Cambridge Learner Corpus • Longman Learners´ Corpus • Uurimistöö + kommerts • FRIDA ja FreeText – arvutipõhine keeleõpe: õppijakorpus (computer assisted language learning)
Korpuste kasutamisest keeleõppes • Autentse keeleainese allikast automatiseeritud interaktiivse õpikeskkonnani • Õppijakeelekorpused • Keeleõppe tekstide korpused • Õppijakorpused = arvutipõhine keeleõpe • Kirjakeelekorpused • Paralleel- ja tõlkekorpused • Veebikeskkond
Õppijakeelekorpused & õppijakorpus • Õppijakorpus on arvutipõhise keeleõppe uus tasand – interaktiivne õpikeskkond • nt FreeTextis võimalik koostada 5 tüüpi kirjalikke tekste (õpetaja saab neid vastavalt vajadusele kohandada), õpilane saab kontrollida oma koostatud tekste, saada tagasisidet koos viidetega grammatikareeglitele ja sõnastikule • Keeletehnoloogiline pool: automaattöötlusvahendite kasutamine vigade leidmisel ja märgendamisel (grammatikakontrollija, vealeidja)
Õppijakeelekorpused & kirjakeelekorpused • Õppijakeele korrektne / mittekorrektne keelekasutus • Viie sagedasema nimisõna käändevormide kasutamise võrdlus kirjakeele andmetega – morfosüntaktiliste kategooriate esinemissagedusega TÜKKi morfoloogiliselt ühestatud korpuses: õppijakeel selgelt orienteerutud nominatiivi kasutamisele + nom/gen vormihomonüümia ainsuses (eesti, aasta), püütakse vältida genitiivi ja partitiivi kasutamist: • NOMsing 33515, NOMpl 9996 • Õppijakeeles 5817 ja 1323 • GENsing 39871, GENpl 8785 • Õppijakeeles 1095 ja 658 • PARTsing 17027, PARTpl 6292 • Õppijakeeles 1459 ja 384
Võimalus näha varjatud tendentse kirjakeele arengus • Nt käändekasutus (nom – gen – part): Eile valiti presidenti; Nad on välistanud seda, et ... • tegevuse piiritlematuse / piiritletuse markeerija – sihitise kääne – on tasapisi hakkanud oma funktsioone kaotama • emakeelekõneleja ei näe siin probleemi • õppijakeeles püütakse neid vorme vältida
Paralleel- ja tõlkekorpused • Materjali kontrastiiv- ja tõlkeanalüüs • Eesmärk: • leida tõlkimise ja õppijakeele universaale, tüüpilisi leksikaalseid ja süntaktilisi vastavusi / mittevastavusi (nt A.Mauranen “Käännösuomi ja kääntämisen uiversaalit. Tutkimus korpusainestolla”) • välja töötada optimaalne tõlkijakoolituse ja keeleõppe mudel, veenduda sõnastike ja õppematerjalide sobivuses tõlkija ja keeleõppija vajadustega (nt Jyväskylä paralleelkorpus, mida tehti koostöös Oslo inglise-norra korpusega – K.Sajavaara ja S.Johansson) • uurida strateegiaid, mida inimene tekstiloomes ja tõlkimisel kasutab
Väljund • Korpuslingvistiline tõlkeuurimus annab meetodi, mille abil pääseda tõlke olemuseni • Süstemaatilise tõlkeanalüüsi rakendamineannab keelte kõrvutamiseks sobiva meetodi, mis aitab viia kontrastiivse keeleuurimise kvalitatiivselt uuele tasandile (Jantunen & Eskola 2002: 202; Eslon 2006a: 17, 19-20) • Saab jälgida kirjakeele arengusuundi • Eelduseks normatiivsuse küsimuse lahendamine • Väljundiks keele- ja kultuuriinterferentsi, valede ja ebatäpsete tõlkevastete, kalkeerimise jms vähendamine; tõlkestrateegia valiku suunamine (Михайлов 2003: 31; McEnery & Wilson 2001: 72)
Veebikeele uurimine • Berghi näide: sõnaotsing Taliban • Coubildi 56 miljoni sõne seast leidis ta 40 konteksti, BNC 100 miljonist – mitte ühtegi ja Google´is – 1 890 000 näidet (Bergh 2005: 26–27) • Veebikeele uurimise eelis: representatiivsema tulemuse saamine - selguvad antud hetkel keelele omased, tüüpilised, kesksed nähtused ja protsessid. Sellest ei saa oma töös mööda minna ka keelekorraldajad • Veebikeele uuringute läbiviimise probleem seisneb aga piisavalt kasutajasõbraliku vabavara olemasolus
Vigase vormi aastade kasutamisest • Eesti vahekeele korpuses: 1 kord • TÜKK: 90ndate ajakirjanduskeel - puudub • EKI: puudub • GOOGLE: 208 dokumendist 58 esindatud: • Tudengijazz 2007 Eelnevate aastade festivalidel on olnud esinejaid ... Soomest, Rootsist, Norrast, Saksamaalt, Prantsusmaalt, USA’st, Lätist, Leedust, Venemaalt, ...www.tudengijazz.ee/ - 9k - Puhverdatud - Sarnased lehed Software Engineering Center :: Hädaolukorra tekkimisel, mis võib esineda kord paljude aastade jooksul, võivad taolised abivahendid olla kas kadunud või kaotanud oma töövõime. ...www.sec.ee/solutions2.php?id=90&id1=32&id2=0&id3=1&lg=eesti - 21k - Puhverdatud - Sarnased lehed
Eesti võimalustest • Tallinna Ülikooli Eesti vahekeele korpus • Loodud uurimistöö ja eesti keele kui teise keele / võõrkeele õppe eesmärkidel; perspektiivis rakendada õppijakorpusena – interaktiivse keeleõppe keskkond • On avatud korpus – vene emakeelega õppijate eesti sihtkeele kirjalike tekstide kogu, mida kavas täiendada suulise kõne näidetega (ideaal 50% : 50% pole reaalne, nt British National Corpus 10% suulise keelekasutuse materjale ja 90% kirjalikke tekste, kuna neid raske ühtse standardi alla viia ja omavahel siduda – S.Granger) • Sisaldab metainfot õppija- ja tekstide kohta
Eesti vahekeele korpuse metainfo • Info teksti koostaja kohta (sugu, vanus, emakeel, kodune keel, päritolupiirkond Eestis või mujal maailmas, sotsiaalne taust, keeletase); koostaja isikuandmeid pole võimalik tuvastada; olemas koostaja nõusolek teksti kasutamiseks korpuses • Andmed teksti kohta (maht sõnades ja lausetes, teksti liik, teksti koostamise laad) • Info teksti sisestaja ja märgendajate kohta: avalikustatud sisestaja nimi, märgendajate nimed avalikkuse eest varjul
Tekstide ja korpuse maht • Tekstide maht: 50 – 1000 sõnet • Kontrollkorpus, millel katsetatakse erinevaid programme – 500000 sõnet • Vene lähtekeelega õpilaste eesti sihtkeele näidete hulk – 1, 5 miljonit sõnet + allkorpused soome, rootsi, inglise ja saksa lähtekeelega õppijatekstidest; eesmärk – eesti õppijakeele lingvistiliste universaalide väljatoomine
Kasutajaliides teeb korpuse Internetis vabalt kättesaadavaks, teavet ei tohi kasutada kommertseesmärkidel • Töötab konkordantsileidja, sõna- ja vormisageduse statistika, märgendatud vigu saab näha vealiigiti ning kitsamas kontekstis, vajadusel – terviktekstis • Dokumentide ja andmete esitamiseks on kasutatud XHTML-formaati, märgendite hierarhias on tarvitusel XPATH-keel • Korpuses loodud võimalus individuaalseks uurimistööks, loomisel võimalus õppetöö läbiviimiseks ja õppimiseks
Veamärgendus • Alus: mitmemõõteline lingvistiline veataksonoomia (Eslon 2006b: 14–17; Eslon & Metslang 2007: 106–112) • Eristatakse veaklasse (1 – 18), vealiike (leksikaalsed, leksikaagrammatilised, morfonoloogilised, morfoloogilised, morfosüntaktilised, süntaktilised, kommunikatiivsed, sõnatuletuslikud + Proovi kätt!), alamliike, nende alamliike jne
Veaklassid Semantika Grammatika Pragmaatika tekst 1 (16) 2 (17) 3 (18) lause 4 (13) 5 (14) 6 (15) sõnaüh. 7 (10) 8 (11) 9 (12) sõna 10 (7) 11 (8) 12 (9) morfeem 13 (4) 14 (5) 15 (6) grafeem 16 (1) 17 (2) 18 (3)
Veaklasside näited 1 – grafeem + semantika (need inimesed on *laiad / laisad, grafeem s eristab sõnu) 2 – grafeem + grammatika (maja tagasi on *õue / õu, grafeem e eristab käändevorme) 3 – grafeem + pragmaatika (*K-Järvelt / Kohtla-Järvelt, väljendustava vastu eksimine) 4 – morfeem + semantika (*nad andsid mulle tarku selles õppeaines / tarkust selles õppeaines, morfeemi ärajätt on sõnu eristav tunnus) 5 – morfeem + grammatika (Sa *oskasid palju huvitavaid faktid ajaloost / sa tead palju huvitavaid fakte ajaloost, mineviku ajavormi kasutamine ei sobi kokku edastatava informatsiooni sisuga) jne
Vealiikide, alamliikide ja nende jaotumise näide • Morfonoloogilised • Astmevaheldus • seoses sõnatuletusega • seoses vormimoodustusega • tüvevaheldus ja supletiivsed tüved • deminutiivsete liidete kasutamine
Märgendatud teksti näide Minu unistuste auto (1) >>.<< Minu unistuste auto peab olema (2) >>moodsus<<, (3) >>kiirus<< , ilus… Sellepärast mulle ei meeldi (4) >>vanad autod ja liiga (5) >>väiked<<<< . Tahan, et minu auto oleks (6) >>mugavus<< ja (7) >>pehmed istmed<< . (8) >>Auto peab olema taskukohane<< , et ma saaksin (9) >>osta<< . Ei taha, et oleks raske (10) >>juhimine<< (11) >>,<< suur kütusekulu.
Märgendatud vigade alamliigid • Tekstis märgendatud vealiigid: • (1) Interpunktuatsioonivead • (2) Vale sõnaliigi kasutamine • (3) Vale sõnaliigi kasutamine • (4) Sõnajärg ja lause teatestruktuur • (5) Omadussõna käändevormide moodustamine ja kasutamine • (6) Vale sõnaliigi kasutamine • (7) Verbirektsioon • (8) Semantiline seos sõnade vahel • (9) Tegevuse transitiivsus / intransitiivsus • (10) Vale sõnaliigi kasutamine • (11) Sidendite kasutamine olenevalt seose semantikast
Metainfo InformantTekst Sugu: naineTüüp: vastkys Vanus: kuni 40aSõnu: 47 Elukoht: Ida-VirumaaLauseid: 5 Sots.: teenistujaVigu kokku: 11 Emakeel: veneErinevaid: 8 Kodus: vene Haridus: kesk Tase: A Abivahendid: ei
Sõna- ja vormisagedus SagedusEesti õppijakeel Eesti kirjakeelSagedus 13939JaJa27214 13295OnOn 19184 5553Et Ei13810 5091EiEt12314 5087MaTa10170 4073OliOli8861 3882EestiKui8599 3835SeeKa6191 3556KuiSee6114 2991KaOma5329 2478OmaAga5274 2340AgaMa4454 2337TaNing4409 2230VägaMis4391 jne
Sõnavormide tähestikuline järjekord: sõna aasta ja selle tuletiste vormipere aasta 269, aastaaeg 4, aastaajast 1, aastaarv 1, aastaarve 3, *aastaas 1, aastad 28, *aastade 1, aastaga 8, aastaid 15, aastail 5, *aastak 1, aastaks 19, *aastakssee 1, aastakäikude 1, aastakümned 1, aastakümneid 5, aastakümnetel 3, aastal 486, aastale 3, aastalt 25, aastana 1, aastane 56, aastani 19, aastapäeva 1, aastapäeval 1, aastapäevale 4, aastas 44, aastasadade 1, aastasajaks 2, aastased 2, aastaseks 2, aastaselt 1, aastasena 3, aastast 51, aastastele 4, aastat 327, aastate 36, aastatega 2, aastatel 71, aastateni 2, aastatesse 2, aastatest 1, *aastatkõrgkoolide 1, *aastattel 1, *aastatuh 3, aastatuhande 6, aastatuhandeid 3, aastatuhandel 3, aastatuhandete 2, aastatuhat 3, aastavahetus 2, aastavahetuseks 1, aastavahetusel 1, aastavahetuseprogrammid 1, *aasttuh 3, *aastunud 1, *aatat 1
Eesti vahekeele korpuse arendamisest • Kaks arengusuunda • Esimene suund – ressursi suurendamine • et oleks piisav hulk materjali õppijakeele universaalide ja spetsiifiliste nähtuste korpuspõhiseks uurimiseks (standardiseeritud programmide ning statistiliste meetodite rakendamine uurimistöös) • et leida keeles olevaid loomulikke liigitusi, mis kajastuvad lingvistiliste andmete arvutipõhises ja statistilises analüüsis; mitte tegeleda grammatiliste abstraktsioonidega (Abney 1995) • rakendused – eesti keele kui teise või võõrkeele õpe (alus sõnastike, grammatikate, õppematerjalide koostamiseks ja tasemeõppe modelleerimiseks)
Teine suund – keeletehnoloogiline arendustöö • järk-järguline üleminek vigaste tekstide käsitsi märgendamiselt (pool)automaatsele märgendamisele; vealeidja loomine • et rakenduks arvutipõhine interaktiivne keeleõpe • et anda oma osa Eestis ühtse teadmiste panga ja töökeskkonna loomisse, mis ühendaks keeleressursid ning tarkvara
Kirjandust Abney, Steven 1996. Statistical Methods and Linguistics. – The Balancing Act: combining symbolic and statistical approaches to language / Ed. by Judith L. Klavans & Philip Resnik. Cambridge:MIT Press, http://www.vinartus.net/spa/95c.pdf, 8.07.2007. Bergh, Gunnar 2005. Min(d)ing English language data on the Web: What can Google tell us? – ICAME Journal. Computers in English Linguistics 29, 25 – 46, http://icame.uib.no/ij29-page25-46.pdf, 14.07.2007. Eslon, Pille & Metslang, Helena 2007. Õppijakeel ja eesti vahekeele korpus. – Eesti Rakenduslingvistika Ühingu Aastaraamat (III), 99 – 116. Eslon, Pille 2006a. Analoogiast keelte kõrvutamisel.– Keel ja Kirjandus 1, 15 – 24. Eslon, Pille 2006b. Eesti vahekeele korpusest korrelatsioonigrammatikani. – Eesti Rakenduslingvistika Ühingu aastaraamat 2 / Toim. H.Metslang, M.Langemets. Tallinn: EKS. Lk. 11 – 24.
Granger, Sylviane 1998. The computer learner corpus: A versatile new source of data for SLA research. – Learner English on computer / Ed. by S.Granger. London: Longman, 3 – 18. Granger, Sylviane 2003. Error-tagged learner corpora and CALL: a promising synergy. – CALICO Journal 20(3), 465 – 480,http://selene.lib.jyu.fi:8080/julpu/9513915425.pdf, 19.09.2007. Granger, Sylviane 2004. Computer Learner Corpus Research: Current Status and Future Prospects. – Applied Corpus Linguistics. A Multidimensional Perspective / Ed. by U.Connor & T.A.Upton. Amsterdam / New York: Rodopi, 123 – 145. Jantunen, Jarmo Harri & Eskola, Sari 2002. Käänössuomi kielivarianttina: syntaktisia ja leksikaalisia erityispiirteitä. – Virittäjä 2, 184 – 207. Kaalep, Heiki-Jaan & Muischnek, Kadri 2002. Eesti kirjakeele sagedussõnastik. Tartu: TÜ Kirjastus. Mauranen, Anna & Kujamäki, Pekka (Eds) 2004. Translation Universals: Do They Exist? Amsterdam: Benjamins.
McEnery, Tony & Wilson, Andrew 2001. Corpus linguistics / 2nd Ed. Edinburgh: Edinburgh University Press. Михайлов, Михаил 2003. Параллельные корпуса художественных текстов: пинципы составления и возможности применения в лингвистических переводческих исслкдованиях (на примере русско-финского параллельного корпуса художественных текстов). – Acta Universitatis Tamperensis 956. Tamepere University Press, http://acta.uta.fi/pdf/951-44-5754-4.pdf, 9.09.2007. Pravec, Norma A. 2002. Survey of learner Corpora. – ICAME Journal № 26, pp. 81 – 114, http://icame.uib.no/ij26/pravec.pdf, 11.09.2007.