430 likes | 845 Views
Norsk andrespråkskorpus (ASK). Samarbeid Norsk Språktest Aksis Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet. Norsk Språktest. Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig) Arrangerer:
E N D
Norsk andrespråkskorpus (ASK) Samarbeid • Norsk Språktest • Aksis • Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet
Norsk Språktest • Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig) • Arrangerer: • Språkprøven i norsk for voksne innvandrere • Avsluttende prøve for den offentlige grunnopplæring • Arrangeres 3 ganger i året minst ett sted i hvert fylke • Lese- og lytteforståelse, skriftlig og muntlig prøve • Test i norsk - høyere nivå (Bergenstesten) • Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter • Muntlig: for helsepersonell
Språkprøven • 2001: 2309 kandidater (63% kvinner), 62% bestått • 2002: 2593 kandidater (65% kvinner), 60% bestått • 2003: 3174 kandidater (63% kvinner), 58% bestått • 2003: 106 forskjellige land, 103 ulike morsmål • Skriftlig prøve: forklarende eller fortellende • Ca. 240 ord
Høyere nivå (Bergenstesten) • 2001: 998 kandidater • 2002: 1129 kandidater • 2003: 1286 kandidater • Skriftlig prøve: forklarende, fortellende eller argumenterende • Ca. 450 ord
Eksempel på oppgaver (Språktesten) Skriv en tekst om: • adopsjon • alkoholvaner • barneoppdragelse • en bok du har lest • det du mener er viktige verdier i livet • din første jobb • ditt møte med norsk kultur • en eller flere nyheter som har gjort inntrykk på deg • en forfatter og en bok han/hun har skrevet • en hyggelig opplevelse du har hatt • en interesse du har • en kjent person • en person som har betydd mye for deg
Eksempel på oppgaver (Bergenstesten) Skriv ett av følgende leserbrev til en lokalavis: 1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet; eller 2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.
Persondata • Norsk Språktest har lagret persondata i SPSS • Opplysninger kodes, verdi tallkode • Kodebok v14timer Timer i grunnopplæring Value Label 1 under 200 2 200-400 3 401-500 4 501-850 5 851-1500 6 1501-2000 7 2001-3000
Persondata Tid i Norge (antall år) Timer i grunnopplæring Antall mnd. siden start på norskkurs Hvor har du gått på kurs Hva skal du bruke prøveresultatet til: skole Bruke: arbeid Bruke: dokumentere Bruke: annet Hvor ofte snakker du norsk utenfor klasserommet Har du sosial omgang med nordmenn? Omgang med norske på fritiden Omgang med norske på jobben/skolen Kandidatnummer Testdato Nivå på testen Hjemland Morsmål Alder Kjønn Engelsknivå Skolegang utenfor Norge Antall skoleår utenfor Norge Hva gjør du i Norge Yrke i Norge
Yrke i Norge Value Label 1 helsearbeid 2 kontorarbeid 3 manuelt arbeid 4 servicenæring 5 opplæring/undervisning 6 transport 7 politi, toll, brann 8 kultur 9 hjemmeværende 10 annet 11 akademisk yrke
Korpus og utvalg • Utvalg av språk • Spredning etter type språk • Må ha nok besvarelser, alle må ha bestått • Utvalg innen språk • Samme type oppgave • 10 språk • 100 besvarelser innen hvert språk • Både Språkprøven og Høyere nivå • Kontrollgruppe • Nordmenn, fra kor og idrettslag etc.
Problemer vedrørende utvalg • Ønsket flere/andre morsmål, men ikke nok antall • Ulik fordeling av morsmål i de to testene • Skjev kjønnsfordeling • Russisk, polsk : 90-95% kvinner • Ønsket flere besvarelser, men ikke økonomi • Ønsket muntlig prøve, men ikke økonomi
Valgte morsmål • Albansk • Engelsk • Nederlandsk • Polsk • Russisk • Serbokroatisk • Somali • Spansk • Tysk • Vietnamesisk
Feilbegrepet • Problematisk med begrepene ”feil” og ”korrekt form” • Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ” • Andre termer: avvik, løsning • (kilde) L1 interlanguage L2 (mål) • Feil viser hvorledes språket blir lært • Det å gjøre feil er en måte å teste ut målspråket • Grader av feil, ikke lett å avgjøre hva som er rett
Bakgrunn for feilkoder ASK Studerte feilkoder i tre større prosjekter ICLE (International Corpus of Learner English) (tag) feil $rett$ (feil eller rett kan være 0) He took the books (QL) and $,$ the records and the computers. FRIDA (French Interlanguage Database) corpus. <type><subtype><ordklasse>#rett$feil</..></..></type> très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G> Cambridge Learner Corpus <#CODE>wrong word|corrected word</#CODE> He died <#MP>we|.We</#MP> buried him the next day.
ASK feilkoder • Enkelt system slik at kodingsfeil unngås • Grammatisk informasjon annoteres automatisk (senere) • Velger retting som krever minst forandringer • Har kodemanual med eksempler • Systematisk sjekk av koding (ved konkordans) • Bruker TEI sic tag med ekstra attributter • <sic type=type desc=undertype corr=rett>feil</sic> • Det kan være flere feilmarkeringer til et ord (men ikke overlapp)
ASK feilkoder 5 hovedgrupper • Leksemfeil • Morfologifeil • Syntaksfeil • Tegnsettingsfeil • Uidentifiserbar feil
ASK feilkoder: Leksemfeil • W galt ord • ORT ortografisk feil • PART samskrivningsfeil, avledningsfeil • SPL særskrivningsfeil • DER gal avledning • CAP galt valg av stor/liten bokstav • FL ord fra andre språk enn norsk
ASK feilkoder: Leksemfeil • W Fra min mening ... (Etter) • ORT Kun i ordets grunnform (ikke bøying) • PART etterhvert (etter hvert) • SPL sove rom (soverom) • DER stillighet (stillhet) • CAP europa (Europa) • FL lettere å resolvere problemer (løse)
ASK feilkoder: Morfologifeil • F (galt valg av morfosyntaktisk bøyningsform) • Hvilken miljø skal man bo. (Hvilket) • ..og ikke så lang fra sentrum (langt) • Det var jo ham som har betydd absolutt mest (er) • INFL (feil form der intensjonen er riktig morfosyntaktisk kategori) • har mye trafikker og bråker (trafikk og bråk) • Vi hald kontakten (holdt)
ASK feilkoder: Syntaksfeil • M (et ord eller en frase mangler) • Vi hilser ___ hverandre når vi .... (mangler på) • R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk) • Etter ti dager senere giftet... (senere redundant) • O (ord eller fraser står i gal rekkefølge) • ..nok stor for oss... (stor nok)
ASK feilkoder: Undertyper til feiltype O • INV (inversjonsfeil) • I begynnelsen det var veldig vanskelig... (var det) • OINV (overgeneralisering av inversjonsregel) • .. selv om er det press .. (det er) • MCA (gal plassering av setningsadverbialet i helsetning) • fordi jeg har ikke vært i Norge før.. (ikke har) • SCA (gal plassering av setningsadverbialet i leddsetning) • Man kan ringe alltid hvor man er. (alltid ringe)
ASK feilkoder: Tegnsettingsfeil • PUNC (galt valg av tegn) • Hvem trekker først. (?) • PUNCM (tegnsetting mangler) • Når vi ser ca 50 år tilbake (ca.) • PUNCR (tegnsetting må fjernes) • .. med huset, og barna (ikke komma foran og)
ASK feilkoder: Uidentifiserbar feil • X • Vennskapet mitt var utrolig. • de liker virkelig å hjelpe i menneskighet.
Stilark Til hjelp ved kontroll kan en kjøre flere stilark på server.
Konkordans som hjelpemiddel • De som koder har adgang til konkordans (via web) • Kjøres på de tekstfilene som enhver tid er i katalogen • Kan sjekke hvordan andre har kodet • Kan sjekke konsistens i koding • Kan enkelt gå til fil for retting
Persondata • Skjema har forandret seg gjennom årene • Data ligger i SPSS-filer (kodet med kodebok) • Ulike formater • Eksporteres som tab-separert fil • Kobles med tekst gjennom kandidatnummer-år/mnd • Diskusjon med Datatilsynet/NSD om hva vi kunne ta med (tekster ble også anonymisert mht. navn, steder etc.)
Tagging • Bruker Oslo-Bergen tagger • Kan være problematisk å bruke standard tagger på tekst med mange feil • Tagger er robust • Tagger bruker corr-feltet ved ortografiske feil
Tilrettelegging for søking • Bruker Corpus Workbench via TCP/IP socket • Web-basert grensesnitt (Common Lisp) • Web-sider lages som XML og oversettes på server til HTML via stilark (XSLT) • Det lages en korrektversjon av hver setning, får på denne måten et parallellkorpus • Kan rette taggefeil ved søking • Kan laste ned resultat til PC (Excel og lignende.)