370 likes | 646 Views
Transkripcija govornog diskursa. Transkripcija i anotacija diksursa – jedan primer (CHILDES). @Loc: Clinical/ Chiat /10-04.cha 1 @Begin 2 @Languages: eng 3 @Participants: CHI Ruth Target_Child , INV Chiat Investigator 4 @ID: eng|chiat|CHI|10;4.|||| Target_Child |||
E N D
Transkripcija i anotacija diksursa – jedan primer (CHILDES) • @Loc: Clinical/Chiat/10-04.cha • 1 @Begin • 2 @Languages: eng • 3 @Participants: CHI Ruth Target_Child, INV Chiat Investigator • 4 @ID: eng|chiat|CHI|10;4.||||Target_Child||| • 5 @ID: eng|chiat|INV|||||Investigator||| • 6 @Transcriber: Chiat and Davis • 7 @Situation: Conversation about horse riding and not leaving bags in the • 8 room. In a room in school. • 9 *CHI: I like horses (.) round there. • 10 *INV: that's your best thing (.) I think. • 11 *CHI: yeah (.) I like (.) do xx work in ə farm (.) wɛ bigger. • 12 *INV: huh? • 13 *CHI: me worki(ng) in ə farm. • 14 *INV: did you work in the farm? • 15 *CHI: no (.) me bɪ (.) bigger (.) go worki(ng) in ə farm.
Govorni i pisani jezik • Linearnost jezičkog znaka (de Sosir) odnosi se i na govorni jezik u kome se jedinice (glasovi, morfeme,...) ređaju jedne za drugom. Ali postoji i hijerarhija jezičke strukture u svakom iskazu. Važnost tih činjenica za produkciju i razumevanje govora, sa stanovišta pošiljaoca i primaoca poruke, za transkripciju takođe. • Karakteristike razgovornog jezika kao najopštijeg govorne komunikacije: diksursni markeri, deiksa, ponavljanja, preformulacije, fragmentarnost, upotreba narativnog prezenta, manje subordiniranih konektora. • Usmena predavanja između govornog i pisanog: obraćanje, deiksa, oklevanja , diksursni markeri, ...
Svakodnevni i dramski govor • Zabluda je da su razgovor i onaj dijalog zabeležen u dramskom tekstu isti. To se može pokazati ako se uporedi funkcionisanje različitih partikula u razgovoru i njihovo izostavljanje u dramskom tekstu (na primer, znaš, možda, aha, itd.) • Govori se i o nadilaženju razlike između pisanog i govorenog i upućuje na polaznu, po svemu artificijelnu, podelu jezika na pisani i govoreni, kao pogrešna teorijska polazišta. • Neka istraživana: isti događaj opisati usmeno pa pismeno. • Konvencije u titlovima prevoda filmova sa drugog jezika
ZAPISIVANJE GOVORNOG JEZIKA Svako zapisivanje je društveni, ideološki čin. • Istorija pisanja, odnosno pisani spomenici unazad nekoliko hiljada godina, pokazuju razvoj odnosa pretvaranja govornog jezik u pisani: piktografsko, ideografsko, silabičko, fonološko pismo. • Prvo kao znak koji je jednak predmetima, idejama, rečima (hijeroglifi, kinesko pismo) • Znak koji je jednak glasovima (feničansko, starogrčko) • Postepeno stvaranje ortografskih pravila (razmak između reči, veliko slovo, tačke, zarezi,...)
Tradicionalne konvencije u zapisivanju govora • Osnovni razlog što se prihvataju konvencije iz pisanog medijuma jesu znanja, navike, praksa u čitanju kod većine korisnika transkripta (teško da bez posebne obuke neko može da čita IPA azbuku i da protumači sve znakove za anotaciju govornog jezika) • Način transkripcije uslovljen je teorijskim i istorijskim činiocima. (Transkripcija slovenskih jezika)
Sociolingvistički aspekti transkribovanja • Sam transkript je novi tekst, u krajnjoj liniji čak i sam snimak je rekontekstualizacija/entekstualizacija nekog govornog događaja • Posmatrački paradoks (observer’s paradox, Labov) – prisustvo istraživača utiče na govor snimanih sagovornika. (recimo, trude se da “pravilno” govore, da ne psuju...) • Onaj ko je snimao i prisustvovao interakciji i posle transkribovao može drukčije da tumači i čita tekst transkripta od drugih čitalaca. • Predrasude: govor optuženog se često transkribuje kolokvijalnije nego govor policajca/istražitelja. • Tehnički aspekti: pristup transkripcijama, štamparski uzusi, (ne)mogućnost štampanja.
Zapisivanje kao metodološki problem percepcije govornog događaja • Može da se istakne u transkriptu ono što sagovornik NE percepira na taj način. Posvećuje se pažnja aspektima koji nisu bili bitni učesnicima (slično i sa snimkom događaja u kome smo učestvovali) • Moguća su stoga tri različita tumačenja: istraživača koji je prisustvovao govornom događaju, samih sagovornika-učesnika u događaju, novi čitalac transkripta koji je već publikovan negde.
Entekstualizacija transkripta • Korpusi se dodatno ili ponovo analiziraju sa stanovišta drugog istraživanja. Retko kada je istraživač zadovoljan nekim prethodnim korpusom. (Recimo prozodija nije zabeležena uopšte) • Iako postoje principi i modeli trankripcije skoro globalno prihvaćeni, možda je za analizu interakcije bolje početi „svež“, i uvek preispitati konvencije za reprezentaciju interakcije. • Poređenjem različitih transkripata iste interakcije pokazuje različite pretpostavke i ideologije o jeziku i diskursu, implicitne ili eksplicitne.
Disciplinarni pristup • Metodološki pristup različit iz različitih disciplina: analiza diskursa, konverzaciona analiza, terenska lingvistika, antroplogija...) • Globalizacija i multilingvalna interakcija (promena koda, npr.) • Da li će govorni događaj izgledati kao proza u pasusima, ili stihovi i strofe...Narativ u kome se intonacione konture jasno koriste u prezentaciji različitih likova koji su u narativu...
Teorijski bitne odluke u vezi sa transkriptom • Ponovna analiza i promene u transkripciji za druge istraživače ciljeve. Npr. • Izkazi ili replike, turnusi? • Razgovori se prikazuju kao niz “iskaza”, “replika”, bez tematske podeljenosti na pasuse. Teško je sagledati: leksičku gustinu oko teme, kako se započinje nova tema, odrediti jedinice bitne za sumarizaciju, itd. • Hymes: etnopoetika, usmeni narativ u stihovima i strofama... • Nedostatak „pozadine“ iza „transkripta“ je metodološka odluka. Slično kao i svaki problem sa kontekstom u lingvistici
Multimodalni elementi • Multimodalnost: audio-vizuelni snimak i transkript. • Neverbalni aspekti govornog događaja – postavlja se pitanje koje su radnje interakciono bitne. • Neki istraživač smatra gestove značajnim za konverzaciju, dok sami interaktanti to ne vide na isti način kao istraživač...
Tradicionalne konvencije potiču iz više izvora • Tradicije: • književna, • popularna, (internet, mobilni) • mediji (u titlovima, npr. kurzivom replika sagovornika u telefonskom razgovoru koga ne vidimo na ekranu) • lingvistička analiza diskursa, razgovora...
Ortografska tradicija u transkriptima diskursa • Reči se odvajaju jednim razmakom • Minimalna jedinica je “iskaz” i to je jedan pasus? (u nekim transkriptima su iskaz i pasus izjednačeni) • Delimično se zadržava veliko slovo, tačka, znak pitanja, uzvičnik i sl. Ali: • postoji problemi čak i sa ovim znakovima: a) u govoru se prozodijski često povezuju reči u jednu fonetsku jedinicu: Napametmi nije palo. b) Nekada je rečenica nezavršena: To je tako . ne znam kako da ti kažem. c) Neki iskazi se samo delimično mogu predstavti u pisanju tradicionalnim pismom: Mhm? Mhm! su fonetski: mmm sa posebnom prozodijom
Pisana tradicija (često u književnim tekstovima) • Predstavljanje “dijalekata” odnosno “sociolekta”, ... : • stol’ca, ... • gracki,... • becuz, ain’t, t’day • j’sais pas, z’allez haut? • (eye-dialect, allegro spelling...)
Ortografska i fonetska transkripcija • Fonetska dominira u: a) istraživanjima jezika koji se prvi put opisuju, najčešće skupa iskaza dok se ne dođe do fonološkog opisa, b)istraživanjima usvajanja L2, c) opisima izgovora potrebnim u leksikografiji • Transkripti dužih govornih diskursa su uglavnom pisani pismom sredine. U nekim slučajevima se modifikuju fonetskim znakovima: xleb, leb, 'raiDer
Elaborarinost transkripta • Različite konvencije se prihvataju u različitim sredinama i istraživačkim projektima. To važi i za druge lingvističke konvencije: • [[ Stari ljudi] i žene] – [[ Stari ] [ljudi i žene]] • Transkripcija orijentisana na sadržaj, ili na diskursnu strukturu, ili na prozodiju • Primer (Du Bois): JEFF; it’s been a long time • JILL; it’s been so long • ***** • JEFF; It’s been a [long time] • JILL; [(H)] It’s been so: long
Elaborirani • Simplifikovani transkript sačiniti od elaboriranog transkripta i obrnuto ...okay -that's fine. Now, on the investigation,you know, the Democratic break-inthing, we're back to the-in the, the problemarea because the FBI is not under control,because Gray doesn't exactly know how tocontrol them, and they have, theirinvestigation is now leading into someproductive areas, because they've been ableto trace the money, not through the moneyitself, but through the bank, you know,sources - the banker himself. ( odlomak iz transkripta “Watergate”)
Faze u transkribovanju • Više puta se sluša audio zapis, često se i tumači slušano na novi način (slično – nova “čitanja” književnog teksta) • Prva faza – obično usmereno na semantički sadržaj diskursa • Vreme transkripcije se produžava dva do tri puta ukoliko se unose oznake za prozodiju. • Preklapanja, pauze, ponavljanja, mucanje…
Imena učesnika u komunikaciji – lingvistički i etički problem • Raniji korpusi , 50-tih i 60-tih godina koristili su npr. oznake za govornike A., B. C. ili zvezdicu za preklapanja. Negativne strane upotrebe takvih oznaka su što u razgovoru, A. govornik može da kaže: Ja, Milan..., te ipak “saznajemo” njegovo ime. • Zvezdica može da ima i druge neke upotrebe, npr. tako se označava negramatična konstrukcija u lingvistici: *divna čovek
Gramatička anotacija i parseri • Programi koji anotiraju gramatičku strukturu iskaza (??) zasnivaju se na pravilima koja su utvrđena u gramatici ili na statističkoj, probabilističkoj metodi. Disambiguacija...Npr. The run zahteva naknadno editovanje. Greška: What’s he want to prove? • Parseri za morfosintaksičku analizu engleskog jezika: Penn Treebank, TOSCA Parser • Tagiraju se i parsiraju korpusi semantički (kao tezaurus, ontološki) diskursno (npr. anafore) i gramatički, kao i sa specijalnim namenama.
Jezici za obeležavanje teksta • SGML – standard generalized markup language kojim se pokusava postići standardizacija kako bi se moglo dokumenta prenositi sa kompjutera na kompjuter • XML - prednost je što se većkoristi na web stranama • Broj oznaka za anotaciju zavisi od jezika, od toga koliko se detalja želi zabeležiti
Govorni jezik i nove tehnologije • Osnovna razlika pisani i govorni utiče na manje programa za anotiranje govornog jezika. • D’ya, D’you, ...Kaddolaziš, Nemamga, napamet mi nije palo... • Poseban problem za parsere predstavlja govorni jezk zbog a) negramatičnih struktura, b) netranskribovanih prozodijskih obeležja: The child broke his arm and his wrist and his mother called a doctor. Stoga se dodatnomanuelno obeleže konstituentske zagrade. Ili npr.vokativi zapisani u tekstu, u govoru su jasno prozodijski izdvojeni. Ili se ponavljanja „normalizuju” , itd.
Glose i glosiranje • Glosira se na jezik na kome se piše istraživanje, analiza • Kako iskombinovati reči u glosi ukoliko dolazi do preklapanja. • Šta raditi sa redom reči u glosama, pogotovo ako to treba iskombinovati sa „preklapanjima“
Primeri glosiranja Makedonski glosiran na engleskom: Riba ne jadam. fish not eat.1Sg ‘As for fish, I don’t eat it.’ Rumunski glosiran na engleskom: Ion s-o fi plimbînd. Ion Acc.Refl.Cl-will.Cl be.Inf walking.Pres.Part ‘Ion will be walking (now).’
Tipovi korpusa • Opšti, Specijalni, Spontanog, Eksperimentalni • Elicitacija recimo iskaza sa „odglumljenim emocijama – uglavnom čitan tekst, rečenice. • Spontani, autentični govori – gradacija spontanosti • Etički problemi ‘ kako imati spontani govor ako je govornik svestan da je sniman • Nekada se saopštavalo naknadno • Danas potrebna “dozvola” sagovornika
Tehnološki ciljevi • Audio-video snimci sa podacima vezanim za ključne reči, traženjem tagova. • Akustički snimak sadrži i buku: a) zvuk aparata kojim se snima, b) vokalne zvukove, (kašljanje,...) c) nevokalne zvukove (auto na ulici) • Cilj: povezati zvuk, video snimak i transkript
Nove tehnologije • Neke aspekte prozodije u govoru nije moguće predvideti te je teško napraviti automatski program za transkripciju... Npr. preklapanja su nepredvidiva? • S druge strane lakše je napraviti program koji će automatski označiti rečenicu. “Sve što se završava tačkom, jednim razmakom, pa zatim veliko slovo”.
IME DOKUMENTA I ZAGLAVLJE TRANSKRIPTA • Pretpostavimo da posedujete 10 snimaka skupštinskih debata, 8 emisija dijaloškog tipa sa radija i 10 snimaka svakodnovnih razgovora među prijateljima. Svaki od njih treba sačuvati kao poseban dokument (fajl). Koje biste oznake (imena) fajlova mogli upotrebiti? • Neke vremenske jedinice treba obavezno navesti u osnovnom zaglavlju transkripta u vezi sa situacijom snimanja: Datum, vreme snimanja, mesto snimanja
ZAGLAVLJE TRANSKRTA • Ranije trebalo posebno beležiti u transkriptu vremenske jedinice poput sata, minuta, sekundi. Važno npr. u stresnim situacijama (piloti, vozači, dejstvo lekova i sl.) • Opšte informacije vezane za transkript obavezno obuhvataju: a) oznaku početka, oznaku kraja, c) sagovornike
ZAGLAVLJE TRANSKRIPTA • Imenuju se učesnici • Obično i socijalne karakteristike sagovornika najčešće na početku dokumenta – transkripta: a) godište, b) obrazovanje, c) socijalni status d) pol • Transkripti razgovora/govora u nekim elementima podsećaju na dramska scenarija zbog toga što koriste i jedni i drugi koriste: popis lica ili osoba, didaskalija, kratki opisi i uputstva reditelju i glumcima (salon gospođe X, X sedi za pisaćim stolom I piše, gura je, premešta stolicu u drugi deo sobe, …), prizora (scene) - ulazak ili izlazak nekog lika na pozornicu
Imena sagovornika • tri najčešća načina obeležavanja učesnika u razgovoru zapisanom na transkriptu: a) NIK, b) A., c) Nikola. • Koje su prednosti/nedostaci beleženja imena brojevima, ili slovima azbuke? Sagovornici se oslovljavaju ponekad imenom, nadimkom, i sl. te je čitaocu transkripta teško nekada da prati sam tekst koji nije povezan sa imenom onoga ko izgovara repliku.
Posebne oznake • Nerazumljiv govor se može na više načina označiti. (nrz), xxx • Ponavljanja se mogu označiti na dva načina: ili se beleži izgovor svakog ponovljenog izraza ili se jedan navodi pa se stavlja posbena oznaka za broj puta koji se ponavlja. • Preklapanje iskaza dva sagovornika se najčešće označava uglastim zagradama < >, [ ]. * * • Pauze (.) . , • Ispunjene pauze
Posebne oznake • Produžavanje izgovora jednog glasa. /:/ da: Ako produžava glas i pravi pauzu dve dvotačke??? (CA). Ili se više puta ponovi slovo: daa • Prekinuti iskaz?? / - /Od strane samog govornika ili od strane sagovornika. I nastavak iskaza od strane samog govornika ili od strane drugog sagovornika. (Npr. značajno za razvoj govora kod deteta, da li se samo ispravlja ili ne ume...)
Posebne oznake • Brojevi i složenice pišu se kao reči a ne kao brojevi • Paralingvistička ponašanja: plakanje, smejanje, kašljanje, coktanje, stenjanje Npr. (smeh) (smeje se), @, @@@ • Ekstralingvistička situacija se označava kada se smatra bar delimično relevantnom za razumevanje transkriovanog govora. Npr. (okreće se slušaocima iza sebe, kada se „gubi“ glas.)
Govorni događaj se može do kraja protumačiti samo ako su svi elementi ubeleženi. Međutim, takav tekst postaje gotovo nečitljiv, te je cilj da se stvore anotirani korpusi koji olakšavaju čitanje i pretraživanje tako što pružaju opciju da se vide sve, nijedna ili samo odabrane anotacije.