260 likes | 429 Views
Transkripsjon i et talespråkskorpus. Janne Bondi Johannessen, Kristin Hagen, Lars Nygaard og Hanne Gram Simonsen ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, kristiha, larsnyg, hannegs}@iln.uio.no. Dette foredraget. NoTa-prosjektet Ortografisk transkripsjon
E N D
Transkripsjon i et talespråkskorpus Janne Bondi Johannessen, Kristin Hagen, Lars Nygaard og Hanne Gram Simonsen ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, kristiha, larsnyg, hannegs}@iln.uio.no
Dette foredraget • NoTa-prosjektet • Ortografisk transkripsjon • Prinsipper for transkripsjon • Utfordringer: • Prinsippene kan føre til konflikt • Ikke alle ord er i ordboka og har en norm • Dialektord, lånord, nye ord • Tall • Interjeksjoner og lyder • Framtida
Talespråk i lingvistisk forskning • Data fra virkeligheten er viktig i lingvistisk forskning – ikke minst talespråk • Det finnes få tilgjengelige talespråksdata i dag • NoTa-prosjektet bøter på dette! • NoTa: Foreløpig bare Oslo-språket. Andre mangler finansiering
NoTa-Oslo • 144 informanter – representative m.h.t. alder, kjønn, utdannelse, sosial status og geografisk tilhørighet • Hovedfokus på spontantale. Hver informant: • 10 minutters intervju • 30-45 minutters samtale med en annen informant
Demo søkegrensesnitt Test
Ortografisk transkripsjon • NoTa-Oslo bruker ortografisk transkripsjon • Talesøk • CGN (Nederland) • Bysoc (København) • Modifisert transkripsjon • Swedish Spoken Language Corpus, Gøteborgs Universitet (Modifierad Standardortografi, Nivre 1999)
Ortografisk transkripsjon • ÷ representerer ikke hva informantene faktisk sier (men transkripsjon som er lenket til lyd- og bildefiler kan kompensere noe for dette) • + gjør korpuset søkbart • + gjør det lettere å søke automatisk • + er raskere å foreta • + oppgaven for transkribørene blir enklere – men talespråk har mange utfordringer for standard ortografi ...
Ortografisk transkripsjon - def. • Hva er et ortografisk transkribert ord? • Ord eller ordform som finnes i en standard ordbok (Bokmålsordboka) • Nytt ord som er dannet på bakgrunn av vanlige ordlagingsprosesser (avledning, sammensetning), hvor bestanddelene finnes i en standard ordbok
Hovedprinsipper for transkripsjonen • Bruke ordboksformer Informanten sier: denna gata Vi transkriberer: denne gata • Aldri forandre ordstillingen for å tekkes normen Informanten sier: hva du sa jei skulle gjøre? Vi transkriberer: hva du sa jeg skulle gjøre? • Bruke ordboksformer også der hvor de er “galt brukt” i forhold til normen Informanten sier: dem jikk Vi transkriberer: dem gikk
Hovedprinsipper for transkripsjonen • Når mer enn én variant er lov ifølge rettskrivingsnormen, så velg den varianten som er nærmest den som informanten bruker Informanten sier: jæ trur de Vi transkriberer: jeg trur det (ikke: tror)
Utfordringer: Prinsipper som kan føre til konflikter • Ei maskin • Informanten sier: ei maskin (fem.) • Ordboka sier: en maskin (mask.) • Transkripsjonsprinsipp 3 sier: ei maskin Prinsipp 3: Bruk former som finnes i ordboka - også når de er brukt på “galt” sted) Her: ei står i ordboka - bruk den • maskina • Informanten sier maskina (med fem. suffiks) • Ordboka sier: maskinen (med mask. suffiks) • Transkripsjonsprinsipp 1: maskinen Prinsipp 1: Bruk former som finnes i ordboka Løsning: Vær tro mot informantens variant, ikke mot ordbokas norm. Ellers ville vi fått et system som innførte selvmotsigelser i informantens eget genussystem
Utfordringer: Ordet er ikke i ordboka – a og n • De klitiske pronomenformene a og n har forskjellig form fra de fulle pronomenene: a = hun (3. p. sg. f. nom) a = henne (3. p. sg. f. akk) n = han (3. p. sg. m. nom) n = ham (3. p. sg. m. akk) n = den (3. p. sg. m. inhum. nom) n = den (3. p. sg. m. inhum. akk) • Det er ikke klart hvilket pronomen klitikaene evt. skulle vært varianter av der er a der er hun eller der er henne ? der er n der er han eller der er ham eller der er den ?
Ordet er ikke i ordboka – a og n • Siden ulike personer bruker pronomener - også de sterke formene - ulikt (nominativ er ikke alltid subjektsform osv.), vil det bli galt å bruke normative retningslinjer som evt. ville gått på tvers av transkripsjonsprinsippene • Løsning: Vi transkriberer a og n når informanten sier a og n – selv om a og n ikke står i ordboka
Utfordringer: dialektord, nyord osv. • Hovedprinsipp: Behold leksikalske ord som ikke finnes i ordboka, men marker dem som [language= x] • Dialektord, lånord og nyord behandles likt (etter en viss diskusjon) den fisken ser gøllei [language=x] ut yes [language=eng] det er fint den derre [language=x] bloggen [language=x] er artig
Utfordringer: Skal nye ord (slangord) skrives etter norske prinsipper for lyd/bokstav eller følge originalspråket? • Hvor vanlig har ordet blitt i skrift? • Schpa, schmø, wolla, taz? • Finnes det enkelte varianter av ordet i ordbøkene? • Vorspiel • -> Verb: vorse? fårse? forse? • Går det i det hele tatt an å følge norske prinsipper? • Sjpa? Skjpa? • Hva blir mest konsekvent? • Sjpa? skjpa, wolla? wålla? volla? vålla? tæz? taz? tæss? tæs?) => Løsning: Ordbøkene er viktigste ledetråd (blir mest konsekvent, og folk kan slå opp). Norsk bokmålsordbok (UiO), Kebabnorsk (Andreas Østby, Gyldendal 2004)
Utfordringer: tall • Tall står ikke i ordbøkene • Løsning: Bruk Finn-Erik Vinjes Skriveregler Informanten sier: det er hundreogtjueåtte kroner Vi transkriberer: det erhundre og tjueåtte kroner
Utfordringer: interjeksjoner • Mange interjeksjoner står ikke i ordbøkene • Løsning: Vi har laget en egen liste med transkripsjon av disse
Interjeksjoner • m (nøling, ta til etterretning, nam) • m-m (benektende) • mhm (”Jeg forstår” – to stavelser) • mm (bekreftende – to stavelser) • næ (overrasket, undrende) • nja (tvilende) BMO • næhei (forsterkende ”nei”) • ops (oi da) • u (imponert) • uff a meg (beklagelse) BMO • ææ (konstaterende – to stavelser) • å-å (”oi”) • å ja (overrasket) • aha (overrasket) BMO • e (nøling – uansett lengde på een) • eh (avstandsindikerende) • ehe (”Jeg forstår” – to stavelser) • em (nøling) • gud a meg (overrasket, utrop) • heh (imponert) • hm (spørrende, undrende) BMO i betydningen kremting • huff a meg (beklagelse) BMO • hæ (spørrende) BMO • jaha (forsterkende ”ja”) BMO
Utfordringer: lyder • Hovedprinsipp: bare transkriber lyder med betydning (ikke forkjøla hoste) • Noen lyder: • Fremre klikkelyd • Bakre klikkelyd • Sugelyd • Sibilant • Gjesping • Latter • Pusting • Spesialhosting
Utfordringer: uttalevariasjon • Variasjon er ikke transkribert, og er derfor ikke søkbar • Løsning: • Transkripsjon er lenket til lydfiler: søk på enkeltord, hør på lydfilene, og sorter på nytt • Variasjon kan legges til senere • Variasjon for pronomener er transkribert: Informanten sier: Je så henner Vi transkriberer: Jeg [lex=je] så henne [lex=henner]
Framtida • NoTa blir tilgjengelig for forskere i begynnelsen av 2006 • Mer enn 150 informanter blir tilgjengelige • Håper på mer penger, pga: • Telefonsamtaler • Historisk dimensjon med TAUS • Flere talesituasjoner med Big Brother • Flere dialekter (inkludert ScanDiaSyn)