100 likes | 216 Views
Alkuvaiheen koodaus edistyneiden suomenoppijoiden aineistossa. Tallinna 13.11.2008 Ilmari Ivaska ja Kirsti Siitonen. Edistyneiden suomenoppijoiden korpus, TY. Informantit suomen ja sen sukukielten maisteriohjelman opiskelijoita Seuranta-aika 2–3 vuotta Kielitaito vahva jo alussa
E N D
Alkuvaiheen koodaus edistyneiden suomenoppijoiden aineistossa Tallinna 13.11.2008 Ilmari Ivaska ja Kirsti Siitonen
Edistyneiden suomenoppijoiden korpus, TY • Informantit suomen ja sen sukukielten maisteriohjelman opiskelijoita • Seuranta-aika 2–3 vuotta • Kielitaito vahva jo alussa • Monipuolinen tekstilajivalikoima • Tentit, esseet, tutkielmat, katsaukset • 1. vaiheessa pääpaino tenttivastauksissa • Rakenteistaminen TY:n Lauseopin arkiston mallin mukaisesti • Morfologinen, syntaktinen, lauserakenteellinen ja virhekoodaus
Korpuksen rakenne Korpus <id>informantti <?>tekstilaji (tentti, essee ym. lajina) <?>teksti (tentti, essee, tutkielma ym.) <div>tekstijakso (vastaus, luku) <p>kappale <s>virke <cl>lause <w>sana
1. Sanakirja • Metodi LA:n tutkija Nobufumi Inaban kehittämä • Kaikki aineistossa esiintyvät sanamuodot • Täydentäminen aineiston karttuessa • Morfologinen koodaus ja hakusanoittaminen • Monitulkintaisista sanoista todennäköisin koodiksi ja vaihtoehdot kommentiksi • Vartalovirheiden ym. huomioiminen • Lemmaan tavoiteltu sana, mikäli on tunnistettavissa • Virheiden kommentointi virhetyyppiluokittelua varten (vartalo, av, vokaaliharmonia, sekamuoto ym)
1. Sanakirja (jatkoa) <w lemma="kerran" pos="adv" mrp="" fun="" com="kerta_n_sg gen">kerran</w> <w lemma="kertoa" pos="v" mrp="conneg ind pres" fun="" com="fin impv pres sg2">kerro</w> <w lemma="kertoa" pos="v" mrp="fin ind pres sg1" fun="" com="">kerron</w> <w lemma="kerrostuma" pos="n" mrp="sg ill" fun="" com="kerrostua_v_inf3 ill">kerrostumaan</w> <w lemma="kerrostuma" pos="n" mrp="pl ill" fun="" com="">kerrostumiin</w> <w lemma="kertoa" pos="v" mrp="fin pass ind pres" fun="" com="">kerrotaan</w> <w lemma="kertoa" pos="v" mrp="pcp1 sg nom pass" fun="" com="">kerrottava</w> <w lemma="kertoa" pos="v" mrp="fin pass ind pret" fun="" com="">kerrottiin</w> <w lemma="kerta" pos="n" mrp="sg part" fun="" com="kerrata_v_conneg ind pres">kertaa</w> <w lemma="kertoa" pos="v" mrp="inf1" fun="" com="">kertoa</w> <w lemma="kertoa" pos="v" mrp="fin ind pret sg3" fun="" com="">kertoi</w> <w lemma="kertoa" pos="v" mrp="fin cond pres sg3" fun="" com="">kertoisi</w> <w lemma="kertomus" pos="n" mrp="sg nom" fun="" com="">kertomus</w> <w lemma="kertoa" pos="v" mrp="fin ind pres sg3" fun="" com="">kertoo</w> <w lemma="kertoa" pos="v" mrp="pcp1 sg nom" fun="" com="">kertova</w> <w lemma="kertoa" pos="v" mrp="fin ind pres pl3" fun="" com="">kertovat</w> <w lemma="keruu" pos="n" mrp="sg nom" fun="" com="">keruu-</w> <w lemma="keruu" pos="n" mrp="sg nom" fun="" com="">keruu</w> <w lemma="keruumatka" pos="n" mrp="sg ela" fun="" com="">keruumatkasta</w> <w lemma="" pos="v" mrp="pcpag sg nom px3" fun="" com="sekamuoto">keruuttamansa</w> <w lemma="" pos="v" mrp="fin ind pret sg3" fun="" com="sekamuoto">keruutti</w>
2. Syntaktinen koodaus • Valmis sanakirja syötetään takaisin aineistoon • Virkkeet, kappaleet ja tentit rakenteistettu automaattisesti skriptillä, koodausvirheiden korjaus käsin • Kontekstisidonnainen koodaus • Jako lauseisiin ja sanojen syntaktisen roolin koodaus • Sanakirjavaiheen koodausvirheiden korjaus • Virhekoodausta edeltävän tyypittelyn kannalta keskeisin vaihe • Keskeisin virhetaso edistyneillä kielenoppijoilla
2. Syntaktinen koodaus (jatkoa) <paivamaara>20060221</paivamaara> <tentti num=""/> <teksti num=""/> <s num="79" type="kysymys">Suomen astevaihtelun perusperiaatteet</s> <s num="81"> <cl type="affdecl" fun="" com=“sj_advl"> <w lemma="agglutinoida" pos="v" mrp="pcp1 sg nom" fun="nmod" com="sija_mod">Agglutinoiva</w> <w lemma="kieli" pos="n" mrp="sg ess" fun="advl:p" com="">kielenä</w> <w lemma="suomi" pos="n" mrp="sg gen" fun="nmod" com="">suomen</w> <w lemma="sana" pos="n" mrp="pl ill" fun="advl" com="">sanoihin</w> <w lemma="liimata" pos="v" mrp="fin pass ind pres" fun="pred" com="">liimataan</w> <w lemma="taivutuspääte" pos="n" mrp="pl nom" fun="npobj" com="sija_p_obj">taivutuspäätteet</w> <w lemma="" pos="" mrp="" fun="" com="">,</w> </cl> <cl type="negdecl" fun="" com=""> <w lemma="mikä" pos="pron" mrp="sg nom" fun="npsubj" com="">mikä</w> <w lemma="ei" pos="neg" mrp="sg3" fun="pred" com="">ei</w> <w lemma="muu" pos="pron" mrp="sg part" fun="pred2" com="">muuta</w> <w lemma="sana" pos="n" mrp="sg gen" fun="nmod" com="">sanan</w> <w lemma="luokka" pos="n" mrp="sg part" fun="npobj" com="">luokkaa</w> <w lemma="" pos="" mrp="" fun="" com="">.</w> </cl> </s>
3. Virhetyypittely • Tyypittely muodostetaan koodauksen aikana tehdyn kommentoinnin pohjalta • Takaa aineistolähtöisen luokittelun • Viisiportainen, hierarkkinen luokitus • Joiltakin osin ristikkäinen, monitasoiset virheet • Toimii ainoastaan yhdessä yleiskoodauksen kanssa • Esim. objektin sijavalinnan ongelmat virhekoodauksessa vain sijavalinta-virheinä • Tekninen toteutus kesken • Lauseopin X-arkiston käyttöliittymän mukautettu versio
Virhekoodaus (jatkoa) • Virheetön/virheellinen • Päätasot • Sanastollis-johto-opilliset virheet • Sanastollis-morfologiset virheet • Morfologiset virheet • Syntaktiset virheet • Lauserakenteelliset virheet
Seuraavaksi: • Virhekoodauksen teknisten ratkaisujen luominen • Vertailuaineiston koostaminen • Suomenkielisten opiskelijoiden tenttivastauksia • Tekstilajivalikoiman laajentaminen • Ensimmäiset julkaisut ja tulevia tutkimusaiheita: • Ivaska 2009: Eksistentiaalilause lausetyyppinä edistyneiden suomenoppijoiden kielessä (pro gradu) • Siitonen: Muoto-opillisten virheiden väheneminen, verbivalikoiman monipuolistuminen, infinitiivi- ja partisiippirakenteiden lisääntyminen • Siitonen: alkeisopetuksen vaikutus myöhempään kielitaitoon, oppijansuomen rakenne-erot äidinkielisten suomeen nähden