250 likes | 412 Views
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.1 Leggere due fenomeni congiuntamente: vincoli e indipendenza. In questa lezione. In questa lezione ci occuperemo di:
E N D
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.1 Leggere due fenomeni congiuntamente: vincoli e indipendenza
In questa lezione.. In questa lezione ci occuperemo di: • introdurre i concetti di tabelle a doppia entrata, frequenze congiunte e frequenze marginali • leggere una tabella a partire dal confronto delle distribuzioni vincolate • costruzione variabili somma o media a partire dalla distribuzione congiunta • Familiarizzare con le forme di rappresentazione grafica corrispondenti alla tabella a doppia entrata
Ripartiamo da una matrice dati Ripartiamo allora dalle informazioni raccolte a una ce-na di classe (la classe A delle prime lezioni..) e riclas-sifichiamo i presenti in base non a un solo carattere, ma due insieme: il genere e il titolo di studio S. Costruiamo la corrispondente tabella a doppia entrata conteggiando non le singole osservazioni ma le coppie di osservazioni riferite a un individuo: Anche qui la somma delle numerosità dei caratteri congiunti di una riga/co-lonna dà la numerosità di un carattere singolo
La tabella a doppia entrata Esprimiamo in linguaggio formale la tabella a doppia entrata: • nij = numerosità congiunte di osservazioni {X=xiY=yj} • ni* = numerosità marginali di osservazioni {X=xi} qualunque sia il valore di y • n*j = numerosità marginali di osservazioni {Y=yj} qualunque sia il valore di x • ni* = J=1..s nijCONDIZIONI • n*J = i=1..r nijDI QUADRO • N = i=1..r ni* = J=1..s n*j
Le numerosità marginali Isoliamo righe e colonne ‘ai margini’ della tabella: • Le due colonne ai margini sinistro e destro della tabella, ri-compattate insieme, riproducono la distribuzione ‘univariata’ di X, per la quale vale i=1..r ni* = N • Le due righe ai margini alto e basso della tabella, ricompattate insieme, riproducono la distribuzione ‘univariata’ di Y, per la quale vale J=1..s n*J = N • La tabella a doppia entrata contiene dunque almeno tre di-stribuzioni distinte: • La distribuzione congiunta • Le due distribuzioni semplici (marginali) di X e Y
Dalle numerosità alle frequenze relative Come per le distribuzioni univariate, le numerosità possono essere relativizzate, dividendole per la numerosità totale: fij = nij /N • fij = frequenze congiunte di os-servazioni {X=xiY=yj} • fi* = frequenze marginali di os-servazioni {X=xi} qualunque sia il valore di y • f*j = frequenze marginali di os-servazioni {Y=yj} qualunque sia il valore di x • fi* = J=1..s fijCONDIZIONI • f*J = i=1..r fij DI QUADRO • 1 = i=1..r fi* = J=1..s f*j
Variabili doppie quantitative e per classi Quando poco fa abbiamo ricuperato la matrice dati del gruppo di compagni di classe, abbiamo costruito la distribuzione congiunta tra due caratteri qualitativi, uno nominale-dicotomico (G), l’altro ordinale (S titolo di studio). Ma possiamo produrre con identica procedura distribuzioni congiunte di variabili quantitative o di qualitative e quantitative abbinate insieme. Per esempio costruiamo la variabile doppia (S,E): siamo curiosi di capire se c’è qualche legame tra studio e performance economica. A suo tempo (vol. I, lezione 1) aveva-mo riaggregato per classi E in due mo-di diversi. Qui usiamo un terzo criterio (è lecito!): da 0 a 4, da 4 a 6, oltre 6.
Chi studia guadagna di più (o no?) Costruiamo la tabella col solito noioso lavoro di conteggio. E’ vero: “lo fa il calcolatore”; ma dobbiamo sapere come lavora!. Il risultato è nella tabella qua sotto. Cosa ci dice? Proseguendo faremo qualche passo in più per ‘leggere’ una tabella. Ma già qui possiamo imparare una cosa: una ‘spia’ della rela-zione che studiamo è data dal-la diagonale (se esiste) in cui si concentra la maggior parte delle osservazioni. Se l’ellisse (blu) si colloca sul-la diagonale principale, c’è u-na relazione diretta tra S e E. Qui l’ellisse si colloca sulla controdiagonale: c’è quindi una relazione inversa tra S e E (chi studia non piglia pesci?)
Leggere una tabella con le frequenze vincolate C’è una qualche relazione tra livello di scolarità (S) e livello delle entrate (E)? Il modo migliore per capirlo è confrontare le distribuzioni di frequenze vincolate. La nostra testa ha un modo automati-co per valutare l’eventuale relazione tra S e E. Consiste nell’analizzare la ‘distribuzione dei redditi’ separata-mente per diplomati laureati e post: cioè separatamente riga per riga. Tra i diplomati (prima riga) nessuno ha bassi redditi, uno su due (50%) ha medi redditi, uno su due (50%) alti redditi. Tra i laureati uno su cinque (20%) ha bassi redditi, tre su cinque (60%) medi redditi, uno su cinque (20%) alti redditi. Tra i postlaurea solo uno su tre (33%) ha medi redditi, nessuno su tre alti redditi. Sintetizziamo: la % con alti redditi è del 50% tra i diplomati, del 20% tra i laureati e dello 0% tra i post… Il rapporto tra le numerosità marginali e il loro totale ci dà le frequenze relative marginali. Lo stesso rapporto per una singola riga (o colonna) ci dà la frequenze vincolate.
Cosa sono le frequenze vincolate Definiamo quindi frequenza vincolata fj/iil rapporto tra la numerosità congiunta nije la marginale di riga corrispondente ni*, o – indifferentemente - il rapporto tra la frequenza congiunta fije la marginale di riga corrispondente fi. fj|i = nij / ni* = fij / fi* • Per ogni riga vale la condi-zione di quadro 1= j=1..sfj|i • Le frequenze vincolate pos-sono essere calcolate per co-lonna, rapportando una nume-rosità (o frequenza) congiunta alla corrispondente marginale di colonna: fi|j = nij/n*j = fij/f*j • Ovviamente anche per ogni colonna vale la condizione di quadro 1= i=1..rfi|j
Un altro esempio: tabelle tetracoriche Facciamo un altro esempio, riclassificando le venti re-gioni italiane secondo il colore della giunta regionale e il tasso % di occupazione maschile tra i 25 e i 34 anni. In questo caso una variabile (G) è già dicotomica (sini-stra–destra), l’altra (T) è quantitativa discreta, ma nulla ci impedisce di dicotomizzarla, fissando per esempio una soglia a T=80. Una tabella due per due (si dice tabella tetracorica) è la forma più semplice di distribuzione congiunta. Tanto semplice che basta una frequenza congiunta e 2 margi-nali per ricostruirla (provate!!)
Per riga o per colonna è lo stesso L’esempio ridotto all’osso consente di rifare esercizio di lettura di una distribuzione congiunta. Ci chiediamo:c’è relazione tra colore della giunta e tasso di occupazione? Alla domanda rispondiamo calcolando le fre-quenze vincolate f(tj|gi)=n(tj,gi)/n(gi) Nelle giunte di sinistra la % di regioni con alto livello di occupazione è diver-sa e maggiore di quella riscontrata nelle regioni con giunte di destra. I due caratteri regionali dunque non ri-sultano indipendenti tra loro (ma non pensate subito a un nesso tra occu-pazione e tendenze politiche!!) Va detto invece che, costruendo le frequenze vincolate per colonna, la lettura della tabella ci deve portare alle stesse considerazioni. Vediamo che nelle regioni a più alta occu-pazione la % di giunte di sinistra è maggiore che nelle regioni a bassa occupazione: ma questo è solo un modo diverso per dire la stessa cosa detta sopra. Dunque: sia che si legga (tramite frequenze vincolate) una tabella a doppia entrata per colonna oppure per riga, se c’è una qualche connessione la si coglierà comunque!
Distribuzioni congiunte e variabili somma Nel 1974 Peter Townsend (non il cantante!) studiando la carta della povertà nel Regno Unito ha costruito un Indice di Deprivazione Relativa Multipla, sommando senza alcuna ponderazione (unweighted) 12 indicatori Sì/No di disagio: Sei indicatori di risorse materiali: * Regime dietetico * Mezzi/attrezzature * Vestiario * Lavoro * Riscaldamento * Abitazione Sei indicatori di capabilities: * Salute * Istruzione * Attività familiari * Ambiente * Relazioni sociali * Tempo libero Poniamo che ogni indicatore sia dico-tomico. Ad esso corrisponderà una di-stribuzione (di Bernoulli) così fatta: X=0 (sufficiente) X=1 (insuff) Frequenza 1-f Frequenza f Risorsa X= Sommando due indicatori per 100 persone (per esempio C=cibo e V=vesti, a parità di distribuzioni ‘marginali’ (cioè dei singoli indicatori semplici) otterrò tante possibili distribuzioni della variabile Somma quante le forme della distribuzione congiunta: 0 1 2 70 10 20 0 1 2 50 50 - X= X=
Marginali identiche, combinazioni variabili Per capire il meccanismo della somma di variabili, replichiamo l’esempio. Supponia-mo di aver testato le 100 persone per tutti e sei gli indicatori dicotomici di carenze materiali, e di avere costruito un indice M, che va da 0 a un massimo (potenziale) di 6 con questa distribuzione: 50 persone presentano M=0, 20 persone M=1, 20 M=2, le ultime 10 M=3 (nessuno assomma punteggi superiori). Applicata alle stesse 100 persone la batteria delle capabilities si trova per l’indicato-re composto C (tra 0 e 6) la stessa distribuzione di M, ci si domanda: qual è la di-stribuzione dell’indice complessivo P di povertà, ottenuto sommando C e V? La risposta è: dipende. Dipende infatti dalla distribuzione congiunta (C,V) (e quindi dalla relazione che intercorre tra C e V). Vediamo due scenari possibili. 0 2 4 6 50 20 20 10 I° scenario XI = In questo caso bisogni materiali (M) e ca-renze di capabilities (C ) vanno di pari pas-so: dove c’è l’uno c’è l’altra.
e quel che ne consegue 0 1 2 3 4 5 6 25 20 24 18 8 4 1 II° scenario XII= In questo caso bisogni materiali (M) e caren-ze di capabilities (C ) vanno ognuno per la sua strada: sono totalmente indipendenti. • Tiriamo allora alcune conclusioni relative alla somma di variabili: • Combinando le modalità delle due variabili di una distribuzione congiunta si torna ad una variabile a una sola dimensione. • Si possono combinare due variabili facendone la differenza, o il rapporto, o altro ancora: ma la forma più frequente è la somma. • La forma della variabile ottenuta per combinazione (come la somma) dipende strettamente dalla forma della distribuzione congiunta. • Qualunque sia – comunque – la distribuzione congiunta, la media della variabile somma non cambia (qui è m=1,8, verificate), mentre la varianza è diversa (2,18 nel II scenario, di ‘indipendenza’, 4,36 – il doppio – nell’altro).
Somma di distribuzioni uniformi 1 Come calcolare la distribuzione di tutte le possibili somme di 216 lanci di due dadi corretti (quindi con distribuzione uniforme) 2 3 4 5 6 7 8 9 10 11 12 6 12 18 24 30 36 30 24 18 12 6 XII=
Somma di distribuzioni uniformi 2 Somme di 216 lanci di tre dadi corretti 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 3 6 10 15 21 25 27 27 25 21 15 10 6 3 1 XIiI=
Il diagramma di dispersione Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri copresenti in una popolazione l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione più consueta è detta “diagramma di dispersione” (o scatter diagram). In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e come coordinate ‘verticali’ i valori osservati per Y. U Ogni caso è identifi- cato da un punto corrispondente sul piano. Il collettivo è colto sintetica- mente in forma di nuvola di punti. In ver ticale valori di U E In orizzontale valori di E
Diagrammi e leggi inesorabili L’idea di Cartesio di porre una cor-rispondenza tra coppie di osservazioni e punti sul piano ha più di tre secoli, e si associa all’idea di stabilire una relazione precisa tra una linea tracciata sul piano e una funzione (una legge) matematica. Cartesio stesso nel 1686 formula la legge iperbolica che lega espansione dell’aria e peso del mercurio. Gli esempi possono moltiplicarsi. Nel 1860 lo psicofisico Fechner formula la legge logaritmica che lega stimolo e ri-sposta. Ma l’uso che faremo noi del diagramma di dispersione ha invece meno di un secolo di vita. Come mai? Che cosa ha di ‘eccezionale’?
Un mondo variabile è più complesso Il fatto è che nelle scienze esatte (fi-siche e biofisiche) nessun punto potrà cadere fuori della funzione esatta che lega due caratteri, salvo errori di rile-vazione o altre distorsioni accidentali. Se invece riportiamo sul piano cartesiano copie di dati economici o sociali (ma anche psicologici, alla faccia di Fechner!) se ne ricava una confusa nuvola di punti. John è più reattivo Al è sempre teso Jack è catatonico In un mondo intrinsecamente esatto una coppia di coordinate esiste se sta sul sentiero che definisce la ‘legge’, altri-menti non esiste. In un mondo intrinsecamente caratteriz-zato da variabilità una coppia di coordi-nate esiste invece con mille gradazioni, misurate dalla frequenza con cui essa accade. Tra persone in carne e ossa, John ri-sponde più reattivamente a uno sti-molo forte, invece Jack è depresso (o sordo) e reagisce meno, e Al è nevro-tico e scatta già per stimoli a bassa intensità… La curva disegnata definisce una rego-la tendenziale (capiremo che vuol dire) ma intorno ad essa c’è variabilità.
Grafici a tre dimensioni (stereogrammi) Una regolarità andrà dunque cercata non su due bensì su tre dimensioni: quelle dei due caratteri che colleghiamo, e quella della corrispondente distribuzione di frequenza congiunta. Sarà solo la nostra fiducia nell’esistenza di regolarità collettive che ci spingerà a leggere dentro la forma sfocata di una nuvola di punti. La rappresentazione grafica di una coppia di caratteri congiunti si distacca gradatamente da modelli ‘fisici’ di rappresentazione per assumere modelli geometrici a tre dimensioni, per variabili discrete, per classi, continue.
Un altro esempio (fonte diretta di survey) Facciamo un altro esempio. Supponiamo di essere interes-sati alle strategie di costruzione del ‘calendario familiare’ e di avere interpellato 16 coppie con 3 figli, rilevando l’età della madre al primo figlio e il numero di mesi intercorsi tra il 2° e il 3° figlio. Il diagramma che si ricava è questo: Lo scatter diagram è come una persona che non sa tenere segreti: se qualche tendenza esiste nei dati, il diagramma ce la fa subito intuire (le misure di sintesi verranno dopo). La linea chiusa blu (una ellisse?) ci guida a vedere che nel diagramma i punti si distribuiscono con una preferenza. A basse età di maternità al primo figlio corrisponde una crescente divaricazione dell’intervallo tra secondo e terzo (strategia di decelerazione nelle coppie precoci)
Un ultimo esempio (analisi secondaria) Il primo esempio era tratto da dati di survey (ma at-tenti: in questa prima parte utilizzeremo dati di sur-vey in senso descrittivo, ‘come se’ costituissero essi stessi la popolazione di riferimento). Possiamo anche partire da dati già elaborati da altre fonti e procedere a una ‘analisi secondaria’. Per esempio, da fonte Istat possiamo studiare le 20 regioni per indice di vecchiaia (Pop>65/Pop<15, seconda colonna) e numero di posti letto geriatrici per centomila abitanti (terza colonna). Il grafico dice poco sul nesso tra invecchia-mento e offer-ta sanitaria (ma è già in-teressante che non ci sia nesso..)
C’è corrispondenza tra diagrammi e tabelle Diagrammi e tabelle non sono modali-tà di rappre-sentazione prive di co-municazione tra loro!! 1 3 2 1 2 1 4 2 I due diagrammi a destra (età al I° figlio vs intervallo intergenesico, indice vecchia-ia vs posti geriatrie) possono essere riformulati come tabelle. Basta riclassificare le variabili discrete in intervalli, inserendo i diagrammi in una ‘griglia’ adeguata. Le tabelle ridu-cono la preci-sione della di-stribuzione ma comunicano valutazioni tra loro coerenti. 1 1 2 4 2 0 3 4 3