1 / 12

Reeglipõhine komavigade tuvastaja eestikeelsetele tekstidele

Reeglipõhine komavigade tuvastaja eestikeelsetele tekstidele. Krista Liin Tartu Ülikool. Grammatikakorrektor. Mida teeb? Leiab vead (õigekiri, kokku-lahkukirjutamine, kirjavahemärgid, sõnajärg, sõnavalik… ) Pakub välja parandused Parandab vead Milleks? Abivahendina tekstiredaktoris

irma
Download Presentation

Reeglipõhine komavigade tuvastaja eestikeelsetele tekstidele

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Reeglipõhine komavigade tuvastaja eestikeelsetele tekstidele Krista Liin Tartu Ülikool

  2. Grammatikakorrektor • Mida teeb? • Leiab vead (õigekiri, kokku-lahkukirjutamine, kirjavahemärgid, sõnajärg, sõnavalik…) • Pakub välja parandused • Parandab vead • Milleks? • Abivahendina tekstiredaktoris • Keeleõppijatele • Süntaksianalüüsi eeltöötluseks • …

  3. Komavead • Võrdlemisi lihtsalt piiritletav veatüüp • Eesti keelel võrdlemisi raske komakasutus • Vigade tuvastamine, veel mitte parandamine • Puuduvad ja üleliigsed komad • Püüda saavutada võimalikult suurt täpsust

  4. Korpused • Internetikommentaarid • Spontaanne tekst • Palju autoreid • Suure vigade osakaal • Kirjakeele korpus • Valealarmide vältimiseks • 1 magistritöö • Katsetamaks teist tekstitüüpi

  5. Kommentaaride näiteid • Praeguonginiietpalujumalat, et juhulkuisatudsüütultõnnetusse, siissüüdiolevalosapooleleoleks norm kindlustaja (mitteSalvavõiIngesnäiteks) - muidujäädkiustevahetjooksmajaaegaraiskama, õnnetusepärastmillessinaüldsesüüdi pole. • Müüsinvana auto mahahetkelmil olekspidanudriskigrupplangema 0.77-0.60-le agauutautotkindlustamaminnestõusishoopis 0.87. • Ei väikehiinlanna ei olegiparem, kuiväike venelannaKohtla-Järvelt.

  6. Korpused • Märgendus • Morfoloogiline analüüs, ühestamine • Süntaktiline analüüs • Komavigade käsitsi lisatud märgendus • Reeglite koostamisel • Internetikommentaarid – 462 lauset, üle 9000 sõna • Testimisel • Internetikommentaarid - 77 lauset • Kirjakeele korpus - 73 lauset

  7. Lähenemine • Kitsenduste grammatika • Lisada sõnadele märgendid: vigane/õige • Valida lausesisese konteksti põhjal välja õige märgend • Märgendatavad sõnad • Sidesõnad • Küsisõnad • Verbide pöördelised vormid • Reeglite koostamise alused • Grammatikaõpik • Korpuse laused

  8. Reeglid • 98 kitsendusreeglit • Sissejäänud vead – 4,5% • Valesti kirjutatud sõnad • Mitmese analüüsiga sõnad • Viga morfoloogilisel ühestamisel • Komakasutus sõltub lause sisust • Osa lauseliikmeid osalausest välja jäetud

  9. Näited • Ükstüüpkesolipidevhüppeskäiaoli juba paarkuudteenistuselõpetanud, kuijuuatäispeagaüleväeosaaiaronis. • "täis+0" // _A_ pos AN> PRD • “täis+0" // _D_ ADVL • "täis+0" // _S_ com sg nom SUBJ • "täi+s" // _S_ com sg in ADVL NN> • "täi+s" // _V_ main indic impf ps3 sgpsaf #FinV #InfP +FMV • Isenadjuütlesid et otsigesüüasealtkustsaate • saate("saade+0" // _S_ com sg gen ADVL

  10. Testitulemused • Veatüübid • Reeglite kirjutamisel sissejäänud veatüübid • Konstruktsioonid, mida varem ei esinenud • Märgendatavatel sõnadel • täpsus 95,9% • saagis 93,9% • Lausetest jäi viga leidmata ligi 5% (4 lausel)

  11. Edaspidi • Kasutada ka muid korpusi • Bakalaureusetööde algversioonid • Keeleõppijad • Tuvastada ka teisi vealiike • Parandusettepanekud • Stiilivead

  12. Tänan kuulamast.Küsimusi?Kommentaare?

More Related