1 / 21

Sõnajärjevigade automaatse tuvastamise probleeme

Sõnajärjevigade automaatse tuvastamise probleeme. Erika Matsak , IV sügisseminar 2009. Sissejuhatus. Ettekanne on pühendatud õigete ja valede sõnajärjereeglite tuvastamisvõimalustele eesti õppijakeeles ning sellega seotud probleemidele.

zared
Download Presentation

Sõnajärjevigade automaatse tuvastamise probleeme

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sõnajärjevigade automaatse tuvastamise probleeme Erika Matsak, IV sügisseminar 2009

  2. Sissejuhatus • Ettekanne on pühendatud õigete ja valede sõnajärjereeglite tuvastamisvõimalustele eesti õppijakeeles ning sellega seotud probleemidele. • Töö on seotud riikliku programmi Eesti Keele Keeletehnoloogiline tugi (2006-2010) projektiga VAKO - Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamine (2008-2010). • Uurimistulemusteni on jõutud tänu koostööle Helena Metslangi ning Vahur Rebasega

  3. Sissejuhatus Kokku 5000 sõna, 365 lauset

  4. EstCGParser 1.0a Unixi-põhise kitsendustegrammatika morfosüntaktiline analüüs

  5. Morfosüntaktilised probleemid • Morfosüntaktiline tagasiside liiga detailne • Vaid osa märgenditest esitavad sõnajärje jaoks olulist infot • Sõnajärje jaoks olulised märgendid esinevad sõnajärje jaoks ebaoluliste märgendite vahel • Mõned ebaolulised märgendid on lubatud oluliste märgendite vahel, mõned mitte

  6. Lähenemisviis reeglite otsimiseks • On moodustatud hulgad: • Sõnajärje määramiseks oluliste märgenditega • Mitteoluliste märgenditega • Mitteolulistega sõnadega (semantiline hulk, eelkõige sõnad, mis ei ole verbilaiendi peasõnaks, või mis lausealguselisena sõnajärge ei mõjuta) • On piiratud vaadeldud lausete hulka • Välja on jäetud laused nagu küsilaused, umbisikulise tegumoega laused jne • Sõnajärge vaadeldakse kas osalause või lihtlause piires

  7. Lähenemisviis reeglite otsimiseks • Õigete lausete analüüs õigete mallide eraldamiseks • Ilukirjandustekstid (Tartu Ülikooli eesti kirjakeelekorpus) • Valede lausete analüüs valede mallide eraldamiseks • EVKK korpuse tekstid, märgendatud vealiigiga 7.1 (sõnajärg ja lause teatestruktuur)

  8. Reeglite otsimine Ebaolulised sõnad • Uuritakse lauset, lausesiselt vaadeldakse sõnu • Kontrollitakse, kas analüüsitav sõna kuulub sõnajärjes ebaolukliste sõnade hulka • kui nende seas sõna ei leita, otsitakse väljajäetavate märgendite hulgast • seejärel kontrollitakse vajalike märgendite hulka Sõna _______________ Morfosüntaktiline analüüs Ebaolulised märgendid Olulised märgendid

  9. Reeglite otsimine • Iga sõnajärje jaoks oluline märgend kirjutatakse välja • Analüüs katkestatakse siis, kui uuritav sõna ja selle märgend ei kuulunud eespool nimetatud hulkadesse (nt CLB on osalausepiiri märgend) • Tulemuseks on järjestatud oluliste märgendite jada • Reeglite otsingu ettevalmistuse käigus läbiti mitmeid iteratsioone • oluliste ja ebaoluliste märgendite väljaselgitamiseks ning sõnade (semantilise) hulga täiendamiseks

  10. Vealeidja prototüübi loomisest • Eesti keele morfosüntaktilist analüüsi saab teostada EVKK Linuxi-põhises veebikeskonnas • tänu Kaili Müürisepale, kes lõi Linuxi jaoks analüsaatori uue versiooni • Uute tehniliste lahenduste tõttu (erisümbolite töötlus) tuli meil arvesse võtta mõningaid muutusi märgendites • Vahur Rebase teostatud EVKK tarkvaraarenduses on kasutatud programmeerimiskeelt phython • Sõnajärjereeglite kontrollimiseks on korpusse programmeeritud uued moodulid • Võimaldab kasutada analüsaatorit korpuskeskkonnas (EVKKs)

  11. Vealeidja prototüübi loomisest • Prototüüp ei oma esialgu graafilist kasutajaliidest. • Sisesendtekst paigutatakse faili, käivitatakse käsurealt ning vastu saadakse tekstifail • Analüüsi lõpus annab programm statistilised andmed reeglite kasutussageduse kohta

  12. Vealeidja prototüübi loomisest: näide

  13. Vealeidja reeglistiku katvus kirjakeeles (681 lauset TÜ ilukirjanduskorpusest)

  14. Vealeidja rakendus õppijakeele korpuses • Detailsed tulemused on esitatud Eesti Rakenduslingvistika Ühingu aastaraamatusse konkureerivas artiklis • Mõned väljavõtted: • Kasutati 242 sõnajärjereeglit, mis olid leitud ilukirjandustekstide analüüsi alusel • Õppijakeele korpusest võeti juhumeetodil välja valim, mis koosnes 4743 lausest • Populaarsemate reeglite osas olid nii kattuvusi kui erinevusi

  15. Vealeidja rakendamine EVKK-s • Nii õppijakeele kui ilukirjanduskeele valimis on kõige sagedamini kasutatav reegel ['@SUBJ', '@FMV', '@ADVL'], mille osakaal on 13% (564 lauset). • Teisel kohal on reegel ['@SUBJ', '@FMV', '@PRD'] osakaaluga 7% (324, Aga arvutite kasutamine on ka ohtlik), mida ilukirjanduskeeles oli 2%. • Kolmandal kohal on reegel ['@ADVL', '@FMV', '@ADVL'] (5%, 238 lauset).

  16. Õppijate eelistusedsõnajärjereeglite kasutamisel

  17. Valede reeglite otsing märgendatud tekstides • Kui lauses oli esinenud märgend 7.1, siis analüüsiti selle märgendiga seotud osalause • Valesid reegleid otsitakse sama põhimõtte alusel kui õigeid • Suureks probleemiks on • muude vigade esinemine lauses (nt hääldupärane kirjaviis, paronüümia, vale käändevormi kasutamine, sisestamisvead jne) • analüsaatori mittesuutlikkus valesti kirjutatud sõnu analüüsida • ideaalis vajame teksti, kus esineks üks vealiik - sõnajärg ja lause teatestruktuur

  18. Valede reeglite otsing märgendatud tekstides • Valede sõnajärjereeglite mustrid on suhteliselt väikse korduvusega, paljud on ühekordses kasutuses • Mõned kooslused andsid õigete reeglite mustreid, kuna • kirjavea tõttu osutus sõna analüüs valeks • sõnavormile vastav analüüs andis ühestamata vastuse

  19. Valede reeglite otsing märgendatud tekstides • Sagedasemad vead on seotud predikaadi vale positsiooniga: • @ADVL @SUBJ @FMV (nt Kõigi muinasaja jooksul inimesedarvasid , et edu ja õnne sõltuvad surnute austamisest) 2% • @ADVL @SUBJ @FMV @OBJ 1% • @ADVL @SUBJ @FMV @PRD 1% • @SUBJ @ADVL @FMV 1,3%

  20. Kokkuvõte • Sõnajärje uurimiseks on kasutatud eesti keele süntaksianalüsaatorit koos ühestajaga, mis võimaldab lauseid formaliseerida morfosüntaktiliste märgendite abil. • Vigase sõnajärje automaatset tuvastamist on alustatud õigetest sõnajärjereeglitest. • Vigase sõnajärje tuvastamiseks on EVKKs loodud eraldi moodul, mis võimaldab analüüsida õppijakeelt, s.h eesti õppijakeele sõnajärge.

More Related