1 / 22

Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus. Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no. Oversyn.

clarke
Download Presentation

Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Informantutval og opptakssituasjon:Utfordringar i samband med oppbygginga av eit talespråkskorpus Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen ogHanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no

  2. Oversyn • NoTa-prosjektet • Kva er eit talespråkskorpus for norsk? • Innhaldet i Nota-Oslo • Problem og utfordringar i oppbygginga av korpuset • Informantutval • Opptakssituasjon • Demonstrasjon

  3. Nota-prosjektet • Finansiering: Noregs forskingsråd gjennom programmet "Infrastruktur for humanistisk forskning” • Periode: Hausten 2004 og 2005 • Folk: Prosjektleiar: Janne Bondi Johannessen Hanne Gram Simonsen Dagleg leiar: Kristin Hagen Programmerar: Joel Priestley Vitskapleg assistent: Anne Marit BødalTranskribørar:Hilde Cathrine Haug, Ingunn Indrebø Ims, Signe Laake, Inger Margrethe Hvenekilde Seim og Åshild Søfteland

  4. Kva er eit talespråkskorpus for norsk? • Norsk talespråk • språk snakka av personar som er fødde og oppvaksne i Noreg • Korpus • ei samling av tekstar som er tilverka for språkforsking: utval av tekstar, annotering, tilpassa søkegrensesnitt • For kven? • Språkforskarar av alle slag • sosiolingvistar, dialektforskarar, syntaktikarar, fonologar, morfologar, semantikarar, leksikografar o.a. • Datalingvistar, språkteknologar • Kanskje det beste verktøyet for ein språkforskar

  5. Nota-Oslo • Er første del av eit planlagt nasjonalt talespråkskorpus • Inneheld intervju og samtalar med 144 informantar som er fødde og oppvaksne i Oslo-området • Informantane er representative m.o.t. alder, kjønn, utdanning og kvar dei bur i Oslo-området • Korpuset er ortografisk transkribert • Det ferdige korpuset vil bestå av ca 1 million ord • Ein kan søkje i korpuset vha eit eige grensesnitt • Korpuset blir tilgjengeleg for forskarar i byrjinga av 2006

  6. Informantutval • Informantvariablar • Kjønn: M – F • Alder: 16 – 25, 26 – 50, 51 + • Utdanning: vidaregåande skole eller mindre – høgare utdanning • Geografi: Oslo vest, Asker og Bærum – Oslo aust og distriktet omkring Oslo • Resulterande informantmatrise • Tal på celler: 18 med 8 informantar i kvar • 144 informantar

  7. Korpusforbilde • TAUS (Talemålsundersøkinga i Oslo, 1970-talet) • Informantutval, tagging, intervjuteknikk • Manglar eit søkegrensesnitt på Internett... • CGN (Nederlandsk talespråk) • Informantutval, transkripsjon, fleire talesituasjonar • Gothenburg Spoken Language Corpus • Mange talesituasjonar, transkripsjon, ikkje lyd eller bilde • Tekstlaboratoriets skriftspråklege korpus (Oslo-korpuset, Oslo Multilingual Corpus) • Grensesnitt, enkelt å søke • Talesøk • Transkripsjon, lyd

  8. Utfordringar – utdanningsvariabelen • Tredeling? grunnskole – vidaregåande - høgare utdanning • Nesten umogeleg å finne yngre informantar med berre grunnskole, spesielt i Oslo vest. • => slå saman dei to lågaste klassene • Klassifikasjon av ungdom under utdanning • => snittet av den utdanninga ungdommane sjølv har planlagd saman med utdanninga til mor og far • Eksempel: Eige mål for utdanninga = H Mors utdanning = L Fars utdanning = L • Lite samsvar mellom utdanning og prestisjefylt arbeid • Gjeld særleg eldre menneske • Eksempel: tidlegare direktør i ein bokklubb, 72 år. Utdanning: gymnas • => informantar over 70 blir klassifiserte i høgutdanningsgruppa dersom dei har gymnas.

  9. Utfordringar – geografivariabelen • Kor går skiljet mellom aust og vest i Oslo? => bruke inndelinga til Statistisk sentralbyrå (t.d. både Grefsen og Nordstrand blir Oslo vest) • Korleis klassifisere områda omkring Oslo? => Asker og Bærum reknar vi som Oslo vest (ikkje landområda i Asker), resten er saman med Oslo aust (= Oslo ”rest”) • Folk flyttar, også innafor Oslo => utfyllinga i matrisa skjer på grunnlag av kor folk har budd lengst => men vi tek også vare på variablane nåverande bustad og oppvekststad

  10. Utfordringar – skaffe informantar • Vanskeleg å få tak i villige informantar => freiste alle informantar med trekning av tre reisegåvekort => kontakte skolar, seniorsenter og arbeidsplassar => tilby opptak i skoletid/arbeidstid => utnytte eige nettverk og nettverk til kollegaer => artikkel med etterlysing i aviser • Vanskeleg å fylle alle cellene i matrisa • Vanskelegast: Informantar med låg utdanning, spesielt frå Oslo vest => bruke mye tid på å finne informantar …

  11. Utfordringar – opptakssituasjon • Mål: samle inn naturleg talemål, også spontant talemål • Opptakssituasjon: • Eit intervju på ti minutt • Ein samtale mellom to informantar på 30 – 45 minutt • Variablar: • Samtale mellom vener • Samtale mellom kjenningar • Samtale mellom familiemedlem • Samtale mellom ukjente • Intervju med forskjellige intervjuarar (men mest med Anne Marit Bødal, Førde)

  12. Utfordringar – opptakssituasjon • Kamera og opptakssituasjon verkar unaturleg og hemmande => forsøke å gjere det koseleg med kaffi/mineralvatn og godteri (som ikkje knasar!) => foreslå tema om kva ein kan snakke om på førehand => samtalen varar ei stund slik at informantane gløymer kamera • Bare pene og pyntelege samtalar - ikkje spontant? • Med to typar opptakssituasjon ser vi stor skilnad: • I intervju: en-endingar og pausar, stakkato tale • I samtale: informantane er meir uformelle, jf. språklege variablar som a-endingar, slang/bannord • Tekniske problem • Batteri til myggmikrofonane • Langt hår ned på myggen • Skru på lydkort i datamaskinen! • Mykje utstyr • Tidkrevjande å installere • Tungt å dra rundt på (bagladies frå Blindern)

  13. Utfordringar – sensitive data • Krav frå Datatilsynet/Personvernombudet for forsking: korpuset skal ikkje innehalde sensitive personopplysningar, dvs. opplysningar om tredjeperson, religiøs tro, politisk oppfatning, fagforeiningstilknyting, helse osv. => opplyse informantane om dette på førehand => vere til stades under samtalen (i ein krok) og gripe inn i samtalen => temaliste er tilgjengeleg for informantane => ikkje transkribere/pipe ut sekvensar i ettertid

  14. Vårt paradoks: • Tiltak for å redusere ”the observer’s paradox” fører til at informantane blir så avslappa at dei snakkar om sensitive emne

  15. Demonstrasjon • http://omilia.uio.no/nota/ • Ein kan søkje i korpuset på mange ulike måtar: • Informantutval: alle variablane som høyrer til kvar informant • Opptakssituasjon: intervju eller samtale • Språk: • ord • eit eller fleire, rett etter kvarandre eller med mellomrom • deler av ord (byrjing eller slutt) • alle formene til ordet • grammatiske kategoriar: • ordklasse (substantiv, verb, osv.) • grammatiske trekk (eintal/fleirtal, presens/preteritum, osv.)

  16. Demonstrasjon • Resultata blir viste på ulike måtar: • enkeltvis • som konkordansar • valfri kontekststorleik • lyd og video • Sortering etter ulike variablar • Etter ulike informantvariablar • Etter språklege variablar • Diverse statistiske utrekningar • Ulike presenteringsformat (kakediagram o.a.)

  17. NoTa-korpuset: mange søkevariablar

  18. NoTa-korpuset: mange søkevariablar

  19. NoTa-korpuset: gode muligheiter for å søkje på ord og grammatiske kategoriar

  20. NoTa: Resultatkonkordanse

  21. I NoTa-grensesnittet kan ein enkelt få video og lyd til dei transkriberte resultata

More Related