Laboratorio di analisi di dati linguistici

Laboratorio di analisi di dati linguistici Laurea specialistica in Linguistica Teorica e Applicata, Università di Pavia Andrea Sansò sanso@humnet.unipi.it A.A. 2005-2006 Corso progredito 10 CFU

Laboratorio di analisi di risorse linguistiche 2. Elementi di statistica Concetti di base: popolazione, type/token, frequenze e distribuzioni, variabilità e dispersione; la legge di Zipf. Nozioni avanzate: Il test del 2; ANOVA (ANalysis Of Variance).

Nozioni di base • Popolazione: insieme di individui o unità statistiche di cui vogliamo studiare e caratterizzare la distribuzione rispetto a certe peculiarità di interesse. • Problema: nel caso di una lingua la popolazione è un concetto più difficile (v. sopra) Parole unità vs. parole tipo: i token (o parole unità) sono tutte le unità atomiche del testo, ossia ogni parola distinta, individuabile univocamente in base alla sua posizione nel testo; i types (o parole tipo) rappresentano un livello di astrazione superiore; se in un testo la parola un ricorre n volte, diremo che la parola tipo un ha n occorrenze.

Nozioni di base Frequenza: in statistica si intende con frequenza il rapporto tra la frequenza assoluta ni e il numero totale |T| di unità osservate nel testo T Fi = ni/|T| Media aritmetica: si chiama media aritmetica di una serie di valori espressi da una classe di unità il risultato della somma di questi valori divisa per il numero di unità della classe.

Il vocabolario di un testo e il rapporto type/token Il vocabolario VTdi un testo T è l’insieme di parole tipo che ricorrono in T. Il rapporto type/token in un vocabolario di un testo è dato dalla seguente formula: VT/T, ed è un valore compreso sempre tra 0 e 1. Il valore massimo 1 si ottiene quando il testo in questione è interamente formato da hapax (caso possibile solo nei testi molto brevi).

La legge di Zipf E’ una delle leggi quantitative più note e interessanti dell’uso linguistico. Ordinando le parole di un testo per valori decrescenti di frequenza, Zipf osservò che esiste una relazione matematica costante tra la posizione che una parola occupa all’interno della lista (o rango della parola) e la sua frequenza. f(z) = C/z La frequenza di una parola di rango z e data dal rapporto fra la costante C e dal rango z. La costante C corrisponde alla frequenza della parola di rango 1.

Il test del chi-quadro Si tratta di un modello di valutazione dell’indipendenza di un dato da una variabile; se il risultato del test è inferiore a certi valori, si deve concludere che la variabile non influisce su una data distribuzione, e bisogna formulare un’altra ipotesi per spiegare i dati. Viene utilizzato spesso per valutare la distribuzione di fenomeni linguistici rispetto a una variabile linguistica o extralinguistica.

Il test del chi-quadro Esempio: Abbiamo due gruppi di apprendenti di italiano; il gruppo A è composto da studenti spagnoli, il gruppo B da studenti tedeschi. Supponiamo di voler valutare la competenza lessicale di ciascuno dei due gruppi: dato un certo test (ad es. un esercizio di composizione), gli errori lessicali compiuti dagli ispanofoni sono in numero minore di quelli compiuti dai germanofoni. È ragionevole ipotizzare che ci sia un’influenza della L1 sul grado di correttezza della performance? Esiste un sistema statisticamente corretto per valutare questa ipotesi.

Il test del chi-quadro Esempio (continua): È bene chiarire subito che il calcolo del chi-quadro non ci dice nulla sulla efficacia del test o del metodo di raccolta dati (nel caso specifico non ci dice se l’esercizio di composizione era ben concepito): esso opera per così dire a valle, su una data distribuzione espressa come una serie di dati numerici – senza alcuna valutazione di tipo qualitativo! È però in grado di stabilire se la distribuzione è casuale – e cioè se non esiste un’influenza della L1 sulla performance – ovvero se è statisticamente significativa.

Il test del chi-quadro Esempio (continua): Tabella 1 – Frequenze osservate

Il test del chi-quadro Esempio (continua): Il problema statistico da risolvere è il seguente: data la distribuzione riportata nella tabella precedente, possiamo concludere che le differenze nel numero di errori sono dovute alla variabile presa in esame o dobbiamo invece concludere che sono casuali (ossia, più tecnicamente, che avremmo la stessa distribuzione se scegliessimo a caso due gruppi all’interno della stessa popolazione)? Per procedere al test del chi-quadro dobbiamo innanzitutto formulare la cosiddetta ipotesi nulla: in questo caso l’ipotesi nulla è che il numero di errori è indipendente dalla L1 dei soggetti.

Il test del chi-quadro Esempio (continua): Se l’ipotesi nulla è vera, i due gruppi rappresentano due campioni casuali scelti all’interno della stessa popolazione. La popolazione totale nel nostro caso è di 60 individui, e in totale abbiamo 20 individui che non hanno fatto alcun errore. Se il gruppo A fosse stato scelto selezionando 30 individui all’interno di questa popolazione in maniera casuale, quanti individui non avrebbero verosimilmente commesso errori? La risposta è semplice: (20/60) * 30 = 10. Procedendo allo stesso modo calcoliamo quali sono le frequenze attese (expected frequencies) per gli altri sottogruppi (ossia quelli che hanno commesso un solo errore, e quelli che ne hanno commessi da 2 a 6). La formula generale per calcolare le frequenze attese è la seguente: totale colonna * totale riga / popolazione

Il test del chi-quadro Esempio (continua): Tabella 1 – Frequenze attese

Il test del chi-quadro Esempio (continua): È a questo punto necessario calcolare il tasso di devianza (ossia il 2) delle frequenze osservate rispetto a quelle attese. Per ogni cella della tabella si esegue il calcolo seguente: (frequenza osservata – frequenza attesa)2 / frequenza attesa Ad esempio, considerando il numero di individui del gruppo A che non ha fatto errori (7), otteniamo il tasso di devianza seguente: (7 – 10)2 / 10 = 0.9

Il test del chi-quadro Esempio (continua): ripetendo l’operazione per tutte le celle otteniamo: Tasso totale di devianza (2): 0.9 + 0.9 + 0.44 + 0.44 + 2.27 + 2.27 = 7.22

Il test del chi-quadro Esempio (continua): A questo punto non resta che calcolare il grado di libertà (d.f.) e confrontare il nostro risultato con una tavola di distribuzioni chi-quadro (vedi fotocopia); se il risultato è maggiore di un certo valore critico (normalmente 0.05 o 0.01 = probabilità di casualità dell’ipotesi nulla pari o inferiore al 5% o all’1%) possiamo rigettare l’ipotesi nulla e concludere che esiste un’influenza della variabile considerata sui risultati osservati. Il grado di libertà si calcola secondo la formula seguente (nel nostro caso è 2): (numero di colonne – 1) * (numero di righe – 1)

Il test del chi-quadro: problemi In generale il test del chi-quadro funziona solo se tutte le frequenze attese sono sufficientemente grandi ( > 5). Una soluzione a questo problema può essere quella di raggruppare insieme due categorie quando le frequenze attese in ciascuna di esse sono inferiori a 5. Ovviamente perché questo funzioni è necessario motivare questo raggruppamento su basi non statistiche. Nell’esempio concreto che abbiamo illustrato, se, poniamo, la frequenza attesa del gruppo di studenti che ha fatto soltanto un errore è molto bassa, possiamo ricreare una tabella delle distribuzioni con soltanto due categorie (studenti che non hanno fatto errori e studenti che hanno fatto errori). Se invece, poniamo, sono molto pochi sia gli studenti che non hanno fatto errori sia quelli che ne hanno fatti da 2 a 6, il raggruppamento di due categorie non contigue è molto più problematico.

Il test del chi-quadro: problemi Un’altra soluzione è quella di eliminare le celle con frequenze attese molto basse; anche in questo caso non ci sono particolari controindicazioni, a parte il fatto che in questo modo si perdono dettagli importanti. In ogni caso è bene sempre avvertire il lettore quando si applica il test chi-quadro a dati che presentano, in alcuni casi, frequenze attese molto basse: il valore del test non cambia, ma è da considerarsi cum grano salis, e nuovi dati possono falsificare le generalizzazioni proposte.

Il test del chi-quadro: problemi La correzione di Yate È un accorgimento che si utilizza quando il grado di libertà (d.f.) è pari a 1 (e cioè quando abbiamo una tabella di distribuzione con due colonne e due righe). Consiste nel sottrarre 0.5 alla differenza fra frequenza attesa e frequenza osservata (ignorando il segno + o -, cioè operando sul valore assoluto), prima di calcolarne il quadrato.

Il test del chi-quadro: un esercizio In una zona remota della Sicilia vivono due comunità piuttosto isolate in due cittadine a pochi km di distanza: Vigata e Fela. Entrambe le comunità parlano due varietà della stessa lingua (il felese). I linguisti hanno condotto svariate indagini sul campo raccogliendo sia testi scritti che registrazioni di parlato di uomini e donne appartenenti alle due comunità notando una serie di fatti interessanti.

Il test del chi-quadro: un esercizio • L’ordine OV vs VO: i linguisti hanno notato che esistono due ordini basici dell’oggetto e del verbo; hanno anche notato che l’ordine OV è utilizzato esclusivamente nel parlato informale, mentre VO è tipico dello scritto. A Vigata, però, sembra ci sia una tendenza a utilizzare VO anche nel parlato. Questi i dati: • Uso dell’ordine VO a Vigata: 130, di cui nel parlato: 30 • Uso dell’ordine VO a Fela: 229, di cui nel parlato: 124 • Uso dell’ordine OV nel parlato a Fela: 85 • Uso dell’ordine OV nel parlato a Vigata: 36 • Sono dati statisticamente significativi? È possibile che nel felese parlato di Vigata ci sia una tendenza verso la normalizzazione, possibilmente sotto la spinta dell’italiano

Il test del chi-quadro: un esercizio Distribuzione Frequenze attese Deviazione totale: 0.45 + 0.35 + 1.44 + 1.13 = 3.37 (applicata la correzione di Yate), d.f. = 1, p tra 0.10 e 0.05 (= tra 10% e 5%)  probabilmente servono più dati! P indica la percentuale della distribuzione di una tabella chi-quadro che presenta un valore maggiore del valore che abbiamo ottenuto per il 2.

Il test del chi-quadro: un esercizio 2. Donne e uomini: i linguisti hanno registrato il parlato spontaneo di uomini e donne, e hanno notato che in ambedue le comunità le donne tendono a utilizzare di più forme di ammirazione come “Madre Santa!”, mentre gli uomini, che in generale utilizzano meno le espressioni di ammirazione, preferiscono “Padre Santo!”. Questa conclusione è però contestata da altri linguisti, che sostengono che la differenziazione per sesso non è particolarmente significativa, mentre è significativo il fatto che a Fela si utilizzano più espressioni di ammirazione perché la vita è più piacevole; un terzo linguista contesta le conclusioni dei colleghi, e sostiene che si tratta di una distinzione legata all’età degli informanti. L’espressione più arcaica sarebbe “Padre Santo!”, che è la più utilizzata dagli anziani.

Il test del chi-quadro: un esercizio • Donne e uomini: i dati rilevanti sono i seguenti: • Uso di “Madre Santa!” a Fela: 65 (di cui uomini: 20, donne: 45; giovani: 39, anziani: 26) • Uso di “Padre Santo!” a Fela: 43 (di cui uomini: 27, donne 16; giovani: 30, anziani: 13) • Uso di “Madre Santa!” a Vigata: 18 (di cui uomini: 6, donne: 12; giovani: 10, anziani: 8) • Uso di “Padre Santo!” a Vigata: 26 (di cui uomini: 15, donne: 11; giovani: 17, anziani: 9) • È significativa la distinzione su base geografica? E quella tra uomini e donne? Oppure è significativa la distinzione per età?

Il test del chi-quadro: un esercizio Distribuzione Frequenze attese Str. 1 = “Madre Santa!”; str. 2 = “Padre Santo!”. Deviazione totale: 0.51 + 0.62 + 1.27 + 1.53 = 3.93 (applicata la correzione di Yate), d.f. = 1, p < 0.05 (= 5%)  l’ipotesi della differenziazione su base geografica è plausibile!

Il test del chi-quadro: un esercizio Distribuzione Frequenze attese Deviazione totale: 3.04 + 2.46 + 3.66 + 2.96 = 11.42 (applicata la correzione di Yate), d.f. = 1, p < 0.001 (= 0.1%)  la distribuzione per sesso è quella che dà i migliori risultati!

Il test del chi-quadro: un esercizio Distribuzione Frequenze attese Deviazione totale: 0.16 + 0.28 + 0.20 + 0.34 = 0.98 (applicata la correzione di Yate), d.f. = 1, p tra 0.25 e 0.50 (= 25%/50%)  L’ipotesi nulla è plausibile (ovvero, la distinzione per età è casuale)! Si può comunque unire i dati delle tre ricerche e concludere che la classe di individui che con più probabilità produrrà l’espressione di ammirazione “Madre Santa!” è quella costituita dalle donne giovani di Fela.

Il test del chi-quadro E per finire: www.georgetown.edu/faculty/ballc/webtools/web_chi.html Un sito che permette di calcolare il chi-quadro compilando delle tabelle online! (N.B.: non applica la correzione di Yate!)

Variabilità / dispersione Consideriamo il caso – un po’ estremo a dire il vero – di due gruppi di soggetti sottoposti a un test di conoscenza della lingua inglese. Supponiamo che in un gruppo di 50 soggetti – scelti sulla base di un qualche criterio – tutti hanno totalizzato lo stesso punteggio, ad esempio 8/10 e in un altro gruppo, sempre di 50 soggetti, 25 hanno totalizzato 10/10 e 25 hanno totalizzato 6/10. La media aritmetica dei punteggi totalizzati è uguale, ma i due gruppi sono significativamente diversi. La misura della variabilità (o dispersione) ci dice come i punteggi di ciascun gruppo si comportano rispetto al valore tipico osservato. Quanto maggiore è la variabilità all’interno di una popolazione, tanto maggiori saranno le dimensioni richieste del campione per ottenere una informazione soddisfacente.

Variabilità / dispersione La media aritmetica calcolata su un campione è un indicatore abbastanza accurato della media aritmetica dei valori di una data variabile in tutta la popolazione. Ma in certi casi potremmo aver bisogno di qualcosa di più. Potremmo per esempio aver bisogno di stabilire un range entro cui i valori di una data popolazione si collocano. Per prima cosa dobbiamo calcolare la varianza (variance) all’interno della popolazione.

Variabilità / dispersione Supponiamo di avere un testo e di volere misurare la lunghezza media delle frasi (in numero di parole). Otteniamo un valore aritmetico medio che chiamiamo Xm. Per ogni frase X1, X2, …, Xn calcoliamo la differenza rispetto al valore medio: d1 = X1 – Xm, d2 = X2 –Xm, ecc. Se sommiamo semplicemente i valori ottenuti otteniamo zero per ogni campione (valori negativi e positivi si annullano a vicenda). Sommiamo allora i quadrati di queste differenze (il quadrato è sempre un numero positivo) e dividiamo questo totale per (n – 1): otteniamo così la varianza V all’interno della popolazione (che può essere definita come la media delle singole variazioni al quadrato). Estraendo la radice quadrata di questo valore otteniamo la deviazione standard all’interno della popolazione, che avrà la stessa unità di misura dei nostri dati (in questo caso il numero di parole per frase).

Variabilità / dispersione Varianza: V = idi / n – 1 “La varianza V all’interno di un campione i è uguale alla sommatoria dei quadrati delle differenze tra i (punteggi/valori dei) soggetti nel campione i e il valore medio osservato nel campione, il tutto diviso per il numero di soggetti in i meno uno” Deviazione standard = radice quadrata di V

Analysis of variance: il test ANOVA Supponiamo di aver osservato che il numero di errori in un test di inglese dipende dalla provenienza geografica dei soggetti: ad esempio, gli studenti europei si comportano meglio di quelli provenienti dal nord africa, i quali a loro volta ottengopno punteggi più alti degli studenti asiatici e sudamericani. Per verificare questa ipotesi su base statistica possiamo ricorrere al test del chi-quadro, ma possiamo anche utilizzare un test più sofisticato, che risponde al nome di ANOVA.

Analysis of variance: il test ANOVA Formati dei campioni di studenti (diciamo 4 campioni di 10 studenti ciascuno) troveremo molto probabilmente che i punteggi dei singoli gruppi sono simili tra loro, e che l’intervallo fra il punteggio più basso e quello più alto degli studenti di un campione include normalmente la maggior parte dei punteggi di ogni singolo campione. Tuttavia, è possibile che in dettaglio ogni campione abbia comportamenti più diversificati. La misura della media aritmetica non basta, perché selezionati a caso due campioni di 10 studenti all’interno della popolazione totale (= 40 studenti) è verosimile che essi abbiano due valori medi differenti.

Analysis of variance: il test ANOVA

Analysis of variance: il test ANOVA Per verificare se la nostra ipotesi di partenza è sbagliata (e cioè se è vera l’ipotesi nulla che non esiste alcun effetto della provenienza geografica sulla performance), dobbiamo innanzitutto calcolare la varianza stimata within-samples (Vw, within-samples estimate of variance), la cui formula generale è: Vw = (n1 – 1)Vs1 + (n2 – 1)Vs2+…+ (nn – 1)Vsn/ (n1 + n2 + … + nn) – n Ossia la somma della varianza di ogni singolo campione (Vs1, Vs2, …, Vsn), moltiplicata per i gradi di libertà di ogni campione (nel nostro caso 10 – 1 = 9), il tutto diviso per la totalità della popolazione meno 1 per ogni campione (nel nostro caso 4).

Analysis of variance: il test ANOVA Vw = (n1 – 1)Vs1 + (n2 – 1)Vs2+…+ (nn – 1)Vsn/ (n1 + n2 + … + nn) – n Vw= (9x66,222) + (9x43,655) + (9x34,988) + (9 x 47,567) / 36 = 48,11 Dopo aver ottenuto questo valore, dobbiamo calcolare un altro valore, chiamato between-groups estimate of variance (Vb), che è anch’esso una stima della varianza all’interno della popolazione. Otteniamo questo valore calcolando innanzitutto la varianza delle medie aritmetiche. Il valore che otteniamo è pari a 2,662. Moltiplichiamo questo valore per il numero di soggetti in ogni campione (nel nostro caso 10) e otteniamo Vb = 26,62.

Analysis of variance: il test ANOVA Se l’ipotesi nulla è vera, Vb tenderà ad essere più grande di Vw. Il rapporto tra Vb e Vw è espresso come F = Vb / Vw Nel nostro caso tale valore è uguale a 26,62 / 48,11 = 0,55. I gradi di libertà di F sono 3 e 36. Controlliamo su una tabella il valore critico di significatività al 5% per F3,36 e vediamo che è di poco più grande di 2,84, perciò l’ipotesi nulla è vera e non ci sono motivi per ritenere che ci sia una differenza tra i gruppi.

Analysis of variance: il test ANOVA Anche in questo caso c’è un sito che fa il lavoro sporco: http://www.physics.csbsju.edu/stats/anova.html

Laboratorio di analisi di dati linguistici