120 likes | 393 Views
Reeglipõhine komavigade tuvastaja eestikeelsetele tekstidele. Krista Liin Tartu Ülikool. Grammatikakorrektor. Mida teeb? Leiab vead (õigekiri, kokku-lahkukirjutamine, kirjavahemärgid, sõnajärg, sõnavalik… ) Pakub välja parandused Parandab vead Milleks? Abivahendina tekstiredaktoris
E N D
Reeglipõhine komavigade tuvastaja eestikeelsetele tekstidele Krista Liin Tartu Ülikool
Grammatikakorrektor • Mida teeb? • Leiab vead (õigekiri, kokku-lahkukirjutamine, kirjavahemärgid, sõnajärg, sõnavalik…) • Pakub välja parandused • Parandab vead • Milleks? • Abivahendina tekstiredaktoris • Keeleõppijatele • Süntaksianalüüsi eeltöötluseks • …
Komavead • Võrdlemisi lihtsalt piiritletav veatüüp • Eesti keelel võrdlemisi raske komakasutus • Vigade tuvastamine, veel mitte parandamine • Puuduvad ja üleliigsed komad • Püüda saavutada võimalikult suurt täpsust
Korpused • Internetikommentaarid • Spontaanne tekst • Palju autoreid • Suure vigade osakaal • Kirjakeele korpus • Valealarmide vältimiseks • 1 magistritöö • Katsetamaks teist tekstitüüpi
Kommentaaride näiteid • Praeguonginiietpalujumalat, et juhulkuisatudsüütultõnnetusse, siissüüdiolevalosapooleleoleks norm kindlustaja (mitteSalvavõiIngesnäiteks) - muidujäädkiustevahetjooksmajaaegaraiskama, õnnetusepärastmillessinaüldsesüüdi pole. • Müüsinvana auto mahahetkelmil olekspidanudriskigrupplangema 0.77-0.60-le agauutautotkindlustamaminnestõusishoopis 0.87. • Ei väikehiinlanna ei olegiparem, kuiväike venelannaKohtla-Järvelt.
Korpused • Märgendus • Morfoloogiline analüüs, ühestamine • Süntaktiline analüüs • Komavigade käsitsi lisatud märgendus • Reeglite koostamisel • Internetikommentaarid – 462 lauset, üle 9000 sõna • Testimisel • Internetikommentaarid - 77 lauset • Kirjakeele korpus - 73 lauset
Lähenemine • Kitsenduste grammatika • Lisada sõnadele märgendid: vigane/õige • Valida lausesisese konteksti põhjal välja õige märgend • Märgendatavad sõnad • Sidesõnad • Küsisõnad • Verbide pöördelised vormid • Reeglite koostamise alused • Grammatikaõpik • Korpuse laused
Reeglid • 98 kitsendusreeglit • Sissejäänud vead – 4,5% • Valesti kirjutatud sõnad • Mitmese analüüsiga sõnad • Viga morfoloogilisel ühestamisel • Komakasutus sõltub lause sisust • Osa lauseliikmeid osalausest välja jäetud
Näited • Ükstüüpkesolipidevhüppeskäiaoli juba paarkuudteenistuselõpetanud, kuijuuatäispeagaüleväeosaaiaronis. • "täis+0" // _A_ pos AN> PRD • “täis+0" // _D_ ADVL • "täis+0" // _S_ com sg nom SUBJ • "täi+s" // _S_ com sg in ADVL NN> • "täi+s" // _V_ main indic impf ps3 sgpsaf #FinV #InfP +FMV • Isenadjuütlesid et otsigesüüasealtkustsaate • saate("saade+0" // _S_ com sg gen ADVL
Testitulemused • Veatüübid • Reeglite kirjutamisel sissejäänud veatüübid • Konstruktsioonid, mida varem ei esinenud • Märgendatavatel sõnadel • täpsus 95,9% • saagis 93,9% • Lausetest jäi viga leidmata ligi 5% (4 lausel)
Edaspidi • Kasutada ka muid korpusi • Bakalaureusetööde algversioonid • Keeleõppijad • Tuvastada ka teisi vealiike • Parandusettepanekud • Stiilivead