250 likes | 406 Views
Corpus Stammerjohann. L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann. Ricerca finanziata dal “ Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia ”. Corpus Stammerjohann. N° Registrazioni: 30 Durata Totale: circa 47 Ore.
E N D
Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia”
Corpus Stammerjohann • N° Registrazioni: 30 • Durata Totale: circa 47 Ore
TRACCIA 1 • Scuola elementare Vitali / Perugi • Artigiano Contini / Nencioni • Conversazione in casa Vitali • Conversazione Romoli • Conversazione Braccini • TRACCIA 2 • San Frediano (Bendinelli) • Bidello Magistero (Braschi) • Artigiano San Frediano (Braschi) • Barbiere via Faenza • TRACCIA 1 • Pinocchio (Pensione) • Barbiere via Faenza • Il grillo canterino • Franco e Serena • TRACCIA 2 • Lilian’ s • Barbiere via Faenza • Conversazione Garavini • TRACCIA 1 • Conversazione in casa Vitali • Barbiere via Faenza • TRACCIA 2 • Scherzo via San Gallo • Copie Rai (Il grillo canterino) • Facoltà di Lettere (Braccini) • Barbiere via Faenza • TRACCIA 1 • Giardino d’ infanzia (Bendinelli) • Amiche della Bendinelli • Famiglia • Studio Porcinai • Il grillo canterino Rai • Franco e Serena • Giardino d’ infanzia San Frediano • TRACCIA 2 • Barbiere via Faenza
Recupero del Corpus Stammerjohann • Audio • Digitalizzazione • Campionamento • Testo • Trascrizione in formato CHAT • Meta-dati • Allineamento Testo-Audio dei testi con minore quantità di sovrapposizioni e migliore qualità acustica
Campionamento del corpus rispetto ai corpora di riferimento LABLITA e C-ORAL-ROMper la comparabilità dei dati linguistici
CORPUS ITALIANOC-ORAL-ROM (311.582 parole; 460 locutori) FORMAL 156.544 INFORMAL 155.048 10 testi di 4.500 parole 70 testi di 1.500 parole testi di 3.000 parole
C-ORAL-ROM ITALIANO INFORMALE DOMINIO SOCIOLOGICO D’USO Familiare e privato 128.696 Pubblico 26.352 Monologues 45.212 dial&convers 83.464 Monologues 6.050 dial&convers 20.241 STRUTTURA DELL’EVENTOCOMUNICATIVO
C-ORAL-ROM FORMAL ( campionamento per genere e dominio semantico) Trasmissione non naturale88.220 Natural context 68.324 Media 61.638 Téléphone 26.582 • Droit • Débat politique • Religion • Enseignement • Conférence • Explications professionnelles • Affaires • (testi di 3.000 parole) • 30.598 –dialogical structure • News • Météo • Interviews • Reportages • Science • Talk show • (testi di 3.000 parole) • Dialogues • Man-machine interactions
CAMPIONAMENTO dell’insieme di registrazioni continue in testi di dimensione tra le 1500 e le 4500 parole • Il campionamento dialogico informale è fortemente comparabile • Il campionamento dialogico regolato/formale è comparabile, con cautela • Il parlato monologico non è comparabile • I media sono scarsamente comparabili
Campionamento rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM Corpus Stammerjohann 1965 : 47 h registrazioni trascritte 8h 31’ 96548 parole in 34 testi Corpus C-ORAL-ROM ’90 – 2003 : 36 h trascritte per 311.582 parole
TESTO Format: CHAT (Codes Human Analysis of Transcripts) di B. McWhinney (1994) adattamento in (Cresti – Moneglia, 1997) Meta-dati: Informazioni sulla sessione e sui locutori (C-ORAL-ROM format )* Linea del testo: trascrizione ortografica Linea dipendente: informazione contestuale e paralinguistica Il metalinguaggio è sempre l’inglese * Anche in Format IMDI(Isle Metadata Iniziative) in collaborazione con il Max Planck Institute.
Mata-dati @Title: Palmira @File: ifamcv19 @Participants: PAL, Palmira, (woman, D, x, retired, conversation participant, Florence) CAR, Carlota, (woman, C, 3, researcher, conversation participant, Spain) GIU, Giuseppina, (woman, D, x, retired, conversation participant,Florence) @Date: 10/10/2001 @Place: Florence @Situation: shared-memories dialogue between relatives at home, not hidden, researcher participant @Topic: events in family life @Source: C-ORAL-ROM @Class: informal, family/private, conversation @Length: 9’ 25’’ @Words: 1518 @Acoustic_quality: A @Transcriber: Sabrina Signorini @Revisor: Paola Gramigni; Antonietta Scarano @Comments: text collected by Carlota Nicolas
Unità di riferimento annotate nella trascrizione • Turno dialogico: ogni presa di parola da parte di un parlante (identificabile con il cambiamento di voce) • Enunciato:qualsiasi espressione interpretabile pragmaticamente, ossia ogni espressione attraverso cui viene compiuta una illocuzione (Cresti, 2000) • (identificabile con un break prosodico terminale) • Unità d’informazione:qualsiasiespressione che svolge una funzione informativa (Cresti, 2000). (identificabile con un break prosodico non terminale). • Parte del discorso e lemma di ogni token (non realizzata)
Annotazione • Locutore • Unità d’intonazione non terminale • Unità d’intonazione terminale *PAL: guarda/ad aver perso i libri / io ho perso dimolto // l' era tutta + le [/] le novelle della nonna + *CAR: mh // *PAL: / l' <erano>// *GIU:[<] <eh> / quelle erano belle // *PAL: ma / l' erano belle proprio / eh // le dètti all' Elda // la venne l' Elda // la mi disse / mi dai &de [///]le novelle della nonna / dice // e &di [/] e dicano le son tanto belle // %com: she' s laughing • Interrupzione • Retracting • Sovrapposizione • Frammento • Linea dipendente
Allineamento testo suono Unità di allineamento: L’enunciato Il corpus come una Base di dati di enunciati TOOL: WinPitch Corpus, di Ph. Martin Il file multimediale per lo sfruttamento simultaneo dell’informazione acustica e testuale
Un esempio di audio e testo allineati WinPitchCorpus(P. Martin)
Un esempio di audio e testo allineati WinPitch Corpus (P. Martin)
Misure 1 MLTw: Lunghezza media del Turno dialogico in parole 2 MLU: Lunghezza media dell’enunciato in parole 3 MLTone: Lunghezza media dell’unità tonale in parole 4 MLTu: Lunghezza media del turno dialogico in enunciati • 5MLUtone: Lunghezza media dell’enunciato in unità tonali • 6 MLTtone:Lunghezza media del Turno dialogico in unità tonali • 7Speed w: Numero di parole al secondo • 8Speed u: numero di parole al minuto • FFE: Frequenza della frammentazione (sul totale degli enunciati) • FIE: Frequenza delle interruzioni (sul totale degli enunciati)
Ricerche future sul Corpus Stammerjohann • Lemmatizzazione e tagging morfosintattico • Lessico di frequenza • Studi sintattici di superficie: (enunciati verbali e non verbali, principali indici di coordinazione, subordinazione, focalizzazione negativa) • Studi diacronici: Modificazione del lessico di base toscano
Possibilità attuali per la pubblicazione dei risultati della ricerca FIRB in : a) Pubblicazione on demand in DVD + Volume (Firenze University Press) b) Pubblicazione Volume + DVD (Collana degli Studi Linguistici del Dipartimento di Italianistica)