210 likes | 435 Views
Sõnajärjevigade automaatse tuvastamise probleeme. Erika Matsak , IV sügisseminar 2009. Sissejuhatus. Ettekanne on pühendatud õigete ja valede sõnajärjereeglite tuvastamisvõimalustele eesti õppijakeeles ning sellega seotud probleemidele.
E N D
Sõnajärjevigade automaatse tuvastamise probleeme Erika Matsak, IV sügisseminar 2009
Sissejuhatus • Ettekanne on pühendatud õigete ja valede sõnajärjereeglite tuvastamisvõimalustele eesti õppijakeeles ning sellega seotud probleemidele. • Töö on seotud riikliku programmi Eesti Keele Keeletehnoloogiline tugi (2006-2010) projektiga VAKO - Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamine (2008-2010). • Uurimistulemusteni on jõutud tänu koostööle Helena Metslangi ning Vahur Rebasega
Sissejuhatus Kokku 5000 sõna, 365 lauset
EstCGParser 1.0a Unixi-põhise kitsendustegrammatika morfosüntaktiline analüüs
Morfosüntaktilised probleemid • Morfosüntaktiline tagasiside liiga detailne • Vaid osa märgenditest esitavad sõnajärje jaoks olulist infot • Sõnajärje jaoks olulised märgendid esinevad sõnajärje jaoks ebaoluliste märgendite vahel • Mõned ebaolulised märgendid on lubatud oluliste märgendite vahel, mõned mitte
Lähenemisviis reeglite otsimiseks • On moodustatud hulgad: • Sõnajärje määramiseks oluliste märgenditega • Mitteoluliste märgenditega • Mitteolulistega sõnadega (semantiline hulk, eelkõige sõnad, mis ei ole verbilaiendi peasõnaks, või mis lausealguselisena sõnajärge ei mõjuta) • On piiratud vaadeldud lausete hulka • Välja on jäetud laused nagu küsilaused, umbisikulise tegumoega laused jne • Sõnajärge vaadeldakse kas osalause või lihtlause piires
Lähenemisviis reeglite otsimiseks • Õigete lausete analüüs õigete mallide eraldamiseks • Ilukirjandustekstid (Tartu Ülikooli eesti kirjakeelekorpus) • Valede lausete analüüs valede mallide eraldamiseks • EVKK korpuse tekstid, märgendatud vealiigiga 7.1 (sõnajärg ja lause teatestruktuur)
Reeglite otsimine Ebaolulised sõnad • Uuritakse lauset, lausesiselt vaadeldakse sõnu • Kontrollitakse, kas analüüsitav sõna kuulub sõnajärjes ebaolukliste sõnade hulka • kui nende seas sõna ei leita, otsitakse väljajäetavate märgendite hulgast • seejärel kontrollitakse vajalike märgendite hulka Sõna _______________ Morfosüntaktiline analüüs Ebaolulised märgendid Olulised märgendid
Reeglite otsimine • Iga sõnajärje jaoks oluline märgend kirjutatakse välja • Analüüs katkestatakse siis, kui uuritav sõna ja selle märgend ei kuulunud eespool nimetatud hulkadesse (nt CLB on osalausepiiri märgend) • Tulemuseks on järjestatud oluliste märgendite jada • Reeglite otsingu ettevalmistuse käigus läbiti mitmeid iteratsioone • oluliste ja ebaoluliste märgendite väljaselgitamiseks ning sõnade (semantilise) hulga täiendamiseks
Vealeidja prototüübi loomisest • Eesti keele morfosüntaktilist analüüsi saab teostada EVKK Linuxi-põhises veebikeskonnas • tänu Kaili Müürisepale, kes lõi Linuxi jaoks analüsaatori uue versiooni • Uute tehniliste lahenduste tõttu (erisümbolite töötlus) tuli meil arvesse võtta mõningaid muutusi märgendites • Vahur Rebase teostatud EVKK tarkvaraarenduses on kasutatud programmeerimiskeelt phython • Sõnajärjereeglite kontrollimiseks on korpusse programmeeritud uued moodulid • Võimaldab kasutada analüsaatorit korpuskeskkonnas (EVKKs)
Vealeidja prototüübi loomisest • Prototüüp ei oma esialgu graafilist kasutajaliidest. • Sisesendtekst paigutatakse faili, käivitatakse käsurealt ning vastu saadakse tekstifail • Analüüsi lõpus annab programm statistilised andmed reeglite kasutussageduse kohta
Vealeidja reeglistiku katvus kirjakeeles (681 lauset TÜ ilukirjanduskorpusest)
Vealeidja rakendus õppijakeele korpuses • Detailsed tulemused on esitatud Eesti Rakenduslingvistika Ühingu aastaraamatusse konkureerivas artiklis • Mõned väljavõtted: • Kasutati 242 sõnajärjereeglit, mis olid leitud ilukirjandustekstide analüüsi alusel • Õppijakeele korpusest võeti juhumeetodil välja valim, mis koosnes 4743 lausest • Populaarsemate reeglite osas olid nii kattuvusi kui erinevusi
Vealeidja rakendamine EVKK-s • Nii õppijakeele kui ilukirjanduskeele valimis on kõige sagedamini kasutatav reegel ['@SUBJ', '@FMV', '@ADVL'], mille osakaal on 13% (564 lauset). • Teisel kohal on reegel ['@SUBJ', '@FMV', '@PRD'] osakaaluga 7% (324, Aga arvutite kasutamine on ka ohtlik), mida ilukirjanduskeeles oli 2%. • Kolmandal kohal on reegel ['@ADVL', '@FMV', '@ADVL'] (5%, 238 lauset).
Valede reeglite otsing märgendatud tekstides • Kui lauses oli esinenud märgend 7.1, siis analüüsiti selle märgendiga seotud osalause • Valesid reegleid otsitakse sama põhimõtte alusel kui õigeid • Suureks probleemiks on • muude vigade esinemine lauses (nt hääldupärane kirjaviis, paronüümia, vale käändevormi kasutamine, sisestamisvead jne) • analüsaatori mittesuutlikkus valesti kirjutatud sõnu analüüsida • ideaalis vajame teksti, kus esineks üks vealiik - sõnajärg ja lause teatestruktuur
Valede reeglite otsing märgendatud tekstides • Valede sõnajärjereeglite mustrid on suhteliselt väikse korduvusega, paljud on ühekordses kasutuses • Mõned kooslused andsid õigete reeglite mustreid, kuna • kirjavea tõttu osutus sõna analüüs valeks • sõnavormile vastav analüüs andis ühestamata vastuse
Valede reeglite otsing märgendatud tekstides • Sagedasemad vead on seotud predikaadi vale positsiooniga: • @ADVL @SUBJ @FMV (nt Kõigi muinasaja jooksul inimesedarvasid , et edu ja õnne sõltuvad surnute austamisest) 2% • @ADVL @SUBJ @FMV @OBJ 1% • @ADVL @SUBJ @FMV @PRD 1% • @SUBJ @ADVL @FMV 1,3%
Kokkuvõte • Sõnajärje uurimiseks on kasutatud eesti keele süntaksianalüsaatorit koos ühestajaga, mis võimaldab lauseid formaliseerida morfosüntaktiliste märgendite abil. • Vigase sõnajärje automaatset tuvastamist on alustatud õigetest sõnajärjereeglitest. • Vigase sõnajärje tuvastamiseks on EVKKs loodud eraldi moodul, mis võimaldab analüüsida õppijakeelt, s.h eesti õppijakeele sõnajärge.