1 / 22

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.5 Connettere. In questa lezione.

Download Presentation

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere

  2. In questa lezione.. In questa lezione useremo un primo approccio per studiare l’associazione di due variabili statistiche: la teoria della connessione. Per far ciò, a partire da alcuni esempi: • Familiarizzeremo con i concetti di indipendenza stocastica e di perfetta dipendenza funzionale. • Introdurremo alcune proprietà operative delle frequenze congiunte in caso di perfetta indipendenza. • Faremo la conoscenza di una misura importante di connessione, che chiameremo “Chi quadro di Pearson”. Impareremo a misurarla con una procedura operativa più rapida, e a ‘normalizzarla’, rapportandola al suo massimo. • Esamineremo alcuni paradossi e alcune stranezze della connessione, applicata a miscugli di popolazione. E questa sarà la prima finestra che apriremo (e lasceremo per ora socchiusa) verso l’analisi statistica di tre variabili.

  3. Un esempio: matrimonio e scolarità Questa volta partiamo da un esempio concreto. La tabella riporta un incrocio rica-vato dalla matrice dati della Survey della regione Lombardia, su 913 lombardi. Lei Ci sono tanti modi per leggere questa tabella e non tutti fruttuosi. Possiamo cominciare a confrontare le distribuzioni di frequenza mar-ginali. Ma non ne viene granché (fatelo anche voi). La % con bassa scolarizzazione è mag-giore tra le donne (29,2% contro 26,6%) ma quella ad alta scolarizzazione è praticamente identica (41,2% contro 41,0%). Insomma, se ci limitiamo all’analisi univariata, la pari op-portunità sembra cosa raggiunta. Lui

  4. Endogamia come assenza di indipendenza Ma cose meno ovvie emergono leggendo la tabella in altri modi. Proviamo per e-sempio a soffermarci sulle frequenze congiunte (numerosità congiunte diviso nu-merosità totale) situate sulla diagonale principale della matrice. La diagonale principale di una matrice è quella dalla sinistra in alto alla destra in basso: esiste solo se la tabella ha numero uguale di righe e colonne La somma delle frequenze sulla diagonale principale è pari al 67,4%. Significa che due lombardi su tre sono sposati con persona del proprio livello di istruzione. Si dice, in linguaggio forbito, che l’endogamia è forte. La scolarità perseguita (e dietro di essa lo status sociale) condiziona pesantemente la scelta del coniuge. Traduciamo tutto ciò nel linguaggio appreso. Ciò significa che non c’è indipendenza tra scolarità del Lui e del Lei. E che le distribuzioni di frequenza della scolarità di Lei varieranno notevolmente al variare della scolarità di Lui. Verifichiamolo.

  5. Distribuzioni vincolate come fondali di scena Che si calcolino le frequenze di Lei vincolate a Lui o viceversa il risultato non cambia Pensiamo ai diagrammi delle distribuzioni vincolate come a fondali di palcoscenico posti a diverse profondità. Ora la rappre-sentazione grafica ha tre dimensioni: la variabile ‘condizionante’ (lungo la profon-dità), quella condizionata (per larghezza) e le frequenze vincolate (in verticale). Freq (istruzione di lui|istruzione di lei) Freq (istruzione di lei|istruzione di lui) Freq (istruzione di lei|istruzione di lui) Se lui ha ‘super’ Se lui ha ‘infer’ Se lui ha ‘elem’

  6. Distribuzioni vincolate in una società ‘libera’ Come sarebbe la nostra tabella in un’ipotetica società in cui tutte le Lei avessero la stessa chance di sposare un Lui istruito, indipendentemente dalla scolarità di Lei? Traduciamo la domanda nei termini tecnici che abbiamo appreso. La distribuzione di frequenza del livello di istruzione di lei non deve cambiare al variare del livello di istruzione di lui. Cioè tutte le distribuzione di frequenza vincolate (Lei|Lui) sa-rebbero uguali tra loro, quindi uguali a quella della popolazione in generale. Per qualunque j fj|1 = fj|2 = .. = fj|i = .. = fj|r = fj e per qualunque j e i fj|i = fj In questa tabella le distribuzioni vincola-te sono tutte identiche alla distribuzione marginale. Non è difficile risalire alla distribuzione congiunta corrispondente. Infatti, dato che fj|i = nji/niallora nji = fj|i x ni Freq (istruzione di lei|istruzione di lui) Per es. la numerosità ‘teorica’ in una società libera di Lei con licenza elementare e Lui con diploma superiore è 0,292x 374= 109,2(non è intera perché ‘teorica’)

  7. La tabella ‘teorica’ di indipendenza stocastica Questa è la tabella del caso ‘teorico’ di ‘società libera’ in cui ogni donna è indipen-dente nelle sue scelte del partner (secondo la scolarità): essa possiede 3 proprietà La prima cosa da osservare è che la di-stribuzione congiunta costruita per co-lonna rispetta anche le somme per ri-ga, pari proprio alle numerosità margi-nali. La seconda considerazione emerge se andiamo a calcolare le frequenze vin-colate per colonna, cioè le frequenze di livello di istruzione di lui, vincolate al livello di istruzione di lei. Anche queste distribuzioni sono uguali tra loro e identiche alla marginale. Vale questa definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni i,j

  8. Esempio: una pietra miliare della epidemiologia Partiamo con dati inventati, ma che descrivono un famoso caso di storia della scien-za. Per trovare una spiegazione alla diffusione del colera John Snow analizza 2000 quartieri (walls) di Londra, secondo il grado di Esposizione all’epidemia di colera del 1854 (Alto, Medio,Nullo) e la società H di erogazione idrica (Lambeth, Misto, Vauxh). La tabella delle numerosità congiunte o delle frequenze relative non dice niente di chiaro. Calcoliamo allora le frequenze vincolate per riga: cerchiamo cioè di spiegare il variare della distribuzione di frequenza dell’esposizione al colera (E) in funzio-ne del tipo di acqua erogata. Ora vediamo che il colera colpisce pesantemente l’80% dei quartieri serviti dalla Lambeth & Co., solo il 20% di quelli serviti dalla Vauxhall, e una via di mezzo per i quartieri serviti da entrambe le società. Se le frequenze vincolate variano tra i diversi sottogruppi, si può sospettare che esista una relazione tra H e E.

  9. La tabella ‘teorica’ di indipendenza stocastica Se E non dipendesse per niente da H ci dovremmo aspettare che le distribuzioni vin-colate per riga (per grado di esposizione al colera) non varino per niente al variare della società di erogazione, e siano quindi tutte uguali alla distribuzione marginale: 0,50 x 900 = _____ 450 Si risale (moltiplicando le frequenza vincola-te per le corrispondenti numerosità margi-nali) alla Tabella teorica di Indipendenza. Questa è la tabella delle frequenze vincolate che si avrebbe se ci fosse indipendenza tra H e E. Da questa.. Torniamo alla definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni i,j

  10. Fattorizzazione delle frequenze Attenzione: la proprietà di indipendenza stocastica (o statistica) è simmetrica: la indipendenza di Y da X implica cioè quella di X da Y. Ma se noi formuliamo le frequenze relative come rapporti tra numerosità, la defini-zione generale ”fj|i=fj per ogni i,j” diventa”nji/ni=nj/N”da cui si trae: o dividendo entrambe le parti per N: nji =(nj x ni)/N fji =fj x fi Condizione necessaria e sufficiente perché ci sia indipendenza stocastica tra X e Y è che le numerosità congiunte nji siano fattorizzabili (scomponibili in fattori) nel prodotto – diviso per N – delle corrispondenti numerosità marginali, ossia che le frequenze congiunte siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali Ricordate: “Condizione Necessaria e Sufficiente” vuol dire che: a) se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) se le frequenze sono fattorizzabili c’è indipendenza stocastica.

  11. Un esempio: tavole di mobilità sociale padri-figli Prendiamo la tavola della mobilità intergenerazionale (padri-figli) stimata per le persone occupate in Italia nel 1985 (Sylos Labini, numerosità in milioni). La somma delle frequenze relative sulla dia-gonale principale (644+848+47=1539) dà la misura di un cambiamento massiccio ma non radicale: 1539 su 2631 (58,5%) sono stabili (stayers), il restante 41,5% cambia status. Se poi confrontiamo le distribuzioni marginali, troviamo che la popolazione di basso status è scesa dal 43,6 al 40,7%, quella di alto status è salita dal 4,9 al 6,9%. Ma le frequenze vincolate sono ancora più esplicite nel mostrare che non c’è ‘perfetta mobilità sociale’: se il papà era in basso nella scala sociale la frequenza di appartenere alla élite è solo del 3,7%, contro il 36,7% se il papà era già ‘high status’. Freq (status figlio/status padre)

  12. American way of life Ma come sarebbe fatta la tavola, compatibile con le distribuzioni marginali italiane, di perfetta mobilità sociale? La tavola di indipendenza stocastica in cui la frequenza per un figlio di appartenere allo status i non dipende dalla status del padre? In questa tabella ogni numerosità teorica è calcolata ‘fattorizzando’ le frequenze: njie=(njxni)/N Per esempio 80=(1148x183)/2631 ecc. 67=(1378x128)/2631 Ma quanto è la distanza tra la tabella effettivamente osservata (numerosità congiunte njiodove o sta per osservato) e quella teorica di indipendenza (nume-rosità congiunte njiedove e=expected)? Numerosità teoriche di ind.stocastica Basta calcolare la tabella delle differenze tra le njio e le njie ! Chiamiamo ‘contin-genze’ le differenze cji = njio - njie. Tavola delle contingenze cji=njio-njie

  13. Contingenze & contingenze quadratiche Tavola delle contingenze cji=njio-njie Ogni singola contingenza ci racconta del-lo scostamento tra una frequenza osser-vata e quella teorica di perfetta indipen-denza. Per esempio qui si nota la coinci-denza tra nmedio,altoo e nmedio,altoe, ma altre contingenze sono assai più elevate. Se noi vogliamo misurare globalmente il grado di scostamento della distribuzione congiunta da quella teorica di indipendenza è necessario fare una sintesi delle sin-gole contingenze: occorre calcolarne una qualche ‘media’. Ma c’è un problema. La tavola osservata e quella teorica hanno le stesse distribu-zioni marginali. Perciò la tavola delle contingenze ha somme (per riga, per colonna, in totale) pari a zero. Occorre quindi fare la media non delle contingenze semplici, ma di una qualche trasformazione 0. Come il valore assoluto o i quadrati. E poi farne la somma. E’ una procedura familiare, vero? Già che ci siamo, ricordiamo anche che la varianza ci dava problema perché somma quantità quadratiche ed è di un ordine superiore ai dati osservati. Avevamo cercato quindi di ricondurla allo stesso ordine di grandezza dei dati (facendone la radice).

  14. Misurare la connessione Tavola numerosità osservate njio Tavola numerosità teoriche njie Tavola dei rapporti cji2/njie Tavola contingenze cji=njio-njie Qui sono riepilogate le tavole di calcolo. Ma perché per riportare all’ordine di grandezza dei dati la somma la dividiamo per njie e non per njio? Tanti i motivi: ma provate voi a fare rapporti con uno zero al denominatore!

  15. L’indice chi quadrato di Pearson La somma dei rapporti (cji2/njie) è una buona misura del grado di connessione tra due variabili. La indichiamo con la lettera greca (si legge ‘chi’) seguita dal segno del quadrato. Una misura proposta da Karl Pearson, studioso di fine ‘800, con queste caratteristiche: • 2è somma di tanti rapporti in cui i numeratori sono quadrati (quindi sem-pre 0) e i denominatori sono prodotti di frequenze marginali (quindi sempre >0: un prodotto è zero solo se uno dei fattori è zero, ma se una frequenza marginale fosse zero non ci sarebbe quella riga o colonna nella tabella!); • 2è zero se e solo se tutte le differenze al numeratore sono zero cioè se e solo se (njio-njie)=0 per ogni i,j; cioè in caso di indipendenza stocastica; • 2cresce, allontanandosi da zero, al crescere della distanza della distribu-zione congiunta osservata da quella di perfetta indipendenza; • 2ha un massimo? E a che situazione corrisponde? Risponderemo presto. • Intanto limitiamoci a calcolare questa misura nell’esempio della mobilità sociale. Risulta2= (67,086+32,148+18,050+34,563+…+160,444)= 368,378

  16. Agli antipodi: la perfetta dipendenza funzionale Chi quadrato misura lo scostamento dal caso di perfetta indipendenza stocastica. Ma fino a quanto ci si può scostare? Esiste un tetto non superabile? E si può dare un significato a questa situazione limite agli antipodi della indipendenza stocastica? Per rispondere inventiamoci un’altra tavola di mobilità sociale, questa volta fittizia, intragenerazionale (non padri-figli) tra tre settori di vita: città, periferia, campagna. Tavola di mobilità osservata (2=73,8) Tavola di perfetta indipendenza (2=0) Tavola di società castuale (2=200) Tavola di società à la Pol Pot (2=200)

  17. Perfetta dipendenza funzionale Dunque. La tabella osservata mostra un grado di connessione pari a 2=73,8. La situazione di riferimento di indipendenza ha ovviamente 2=0. Ma quelle, opposte, in cui lo stato al tempo (t+1) ‘dipende’ in modo rigido dallo stato al tempo t, danno entrambe 2=200 (la stessa cifra: eppure sono situazioni davvero diverse!). Diamo allora una definizione formale del concetto di dipendenza funzionale: «Una variabile Y dipende funzionalmente da X se a ogni modalità osservata di X corrisponde una e una sola modalità osservata di Y» • Attenti alle proprietà della dipendenza funzionale: • La dipendenza funzionale non implica che ci sia una relazione quantitativa ‘monotòna’ tra le due variabili (in cui al crescere di una cresca o non diminuisca l’altra). Si pensi a una società in cui tra t e (t+1) quelli che stanno in A passino in B, quelli che stanno in B passino a C, quelli che stanno in C passino ad A. • La dipendenza funzionale non implica nep-pure che le variabili coinvolte siano quanti-tative!! E questo vale in generale per 2e per la ‘teoria della connessione’. In questo esempio i ceti medi (‘in mezzo al guado) hanno il massimo livello di stress, i ceti bassi hanno una gradazione intermedia di stress, i ceti alti stanno relativamente bene..

  18. Ancora sulla perfetta dipendenza funzionale Se e solo se la tavola delle numerosità congiunte (tabella di contingenza) è quadrata (r=s) la dipendenza funzionale è biunivoca (cioè la dipendenza fun-zionale di Y da X implica anche la dipendenza funzionale di X da Y e vicever-sa). Solo in questa caso dunque la connessione è un concetto simmetrico. Se s>r (più colonne che righe) ci può essere perfetta dipendenza funzionale di X da Y ma non viceversa (ad almeno una modalità di X corrisponderà più di una modalità di Y). Se r>s (più righe che colonne) ci può essere perfetta dipendenza funzionale di Y da X ma non viceversa (ad almeno una modalità di Y corrisponderà più di una modalità di X). Infine, se entrambe le v.s. coinvolte sono quantitative discrete, alla tabella di massima connessione si può asso-ciare una relazione funzionale (non necessariamente monotona) del tipo Y=f(x) e una del tipo X=g(y).

  19. Normalizzare chi quadrato Si può dimostrare (credeteci sulla parola) che l’indice 2 ha un massimo pari al minore tra il numero di righe e il numero di colonne, meno 1 e moltiplicato per N: E’ abbastanza intuitivo che il valo-re massimo, corrispondente alla situazione di massima connes-sione, si può realizzare solo nel caso in cui la tabella della distri-buzione congiunta sia quadrata (r=s). Ma anche con questo ‘lieve difetto’, il valore massimo ci con-sente di normalizzare l’indice: Nell’esempio di mobilità intergenera- zionale r=s=3, N=2631 e 2=368,378. Quindi 2max=2631(3-1) e 2*=0,07 Nell’esempio di endogamia matrimonia- le r=s=3, N=913 e 2=544,1. Quindi 2max=913(3-1) e 2*=0,298 Nella tavola (fittizia) di mobilità sociale osservata r=s=3, N=100 e 2=73,8. Quindi 2max=100(3-1) e 2*=0,369 Ma nelle simulazioni di mobilità sociale di una società per caste e di una società à la Pol Pot 2=200 e quindi 2*=1!!

  20. L’imprevedibilità dei miscugli Ricordate il concetto di miscuglio, cioè di una popolazione costituita da unità provenienti da gruppi (subpopolazioni, strati) eterogenei tra loro, dotati di distribuzioni di frequenza divergenti? Avevamo fatto conoscenza coi miscugli nell’analisi univariata, e avevamo concluso che occorreva stare prudenti.. Anche nella connessione tra due caratteri qualitativi la natura di miscuglio di una popolazione può produrre effetti sorprendenti. E’ infatti vero che: A 35 anni, tra le ragazze chi lavora è meno frequente che abbia un figlio di chi non lavora; tra i ragazzi è invece l’opposto. Ma se pigliamo ragazzi e ragazze insieme che tipo di relazione funzionale potremo trovare tra attività lavorativa e stato civile? In un miscuglio si può osservare perfetta indipendenza stocastica tra due caratteri X e Y, anche se nelle subpopolazioni si possono osservare relazioni di dipendenza funzio-nale anche perfetta. Viceversa, in un miscuglio si può osservare una relazione tra X e Y in una certa direzione, mentre nelle subpopolazioni la relazione funzionale esiste ma di segno diverso.

  21. E/P bassa alta Nero 6 0 6 E/P bassa alta Ispanico 12 0 12 Nero 0 3 3 Bianco 0 4 4 Ispanico 0 6 6 18 4 22 Bianco 8 0 8 8 9 17 E/P bassa alta Nero 6 3 9 Ispanico 12 6 18 Bianco 8 4 12 26 13 39 Quando l’eterogeneità nasconde una relazione Per esempio, vediamo se esiste associazione tra un indicatore P di performance in carriera (a=alta, b=bassa) e l’appartenenza etnica E (n=nero, s=ispanico, w=bianco) in due isolati W1 (periferico) e W2 (city) di una città americana. W1: isolato periferico W1: isolato nella city Nel miscuglio ogni per-cezione di un ‘minority status effect’ si dissol-ve: c’è perfetta indi-pendenza stocastica!! W1+W2: miscuglio Nell’isolato periferico c’è perfetta dipendenza fun-zionale: i bianchi sono marginali e ‘falliscono’. In centro invece i bianchi hanno buone performan-ces. Le minoranze etniche (anche se numerose!) as-sai meno.

  22. F/E sì no F/E sì no F/E sì no FA 7 (87%) 1 8 FA 13 (52%) 12 25 FA 6(35%) 11 17 FB 13 (76%) 4 17 FB 15 (60%) 10 25 FB 2 (25%) 6 8 20 (80%) 5 25 28 (56%) 22 50 8 (32%) 17 25 Il paradosso di Simpson Un secondo effetto sorprendente consiste nel rovesciamento della direzione della connessione individuata. Può sembrare un guaio meno radicale del precedente, ma può avere conseguenze consistenti. Supponiamo che due ospedali sperimenti-no l’efficacia terapeutica (E=sì o no) di due molecole (F=A,B) nel curare la Sars. Solo, i due ospedali abbiano somministrato i due farmaci in misura differente. Clinica 1 Pool delle cliniche Clinica 2 • In entrambe le cliniche il farmaco A ottiene risultati migliori. Ma (attenti alla diver-sa distribuzione dei farmaci) nel miscuglio ha risultati più favorevoli il farmaco B. Così la scelta del farmaco più efficace dipende dalla scelta del livello di analisi: • Se si sceglie il farmaco più efficace nella maggioranza di cliniche, sarà A. • Se si sceglie il farmaco più efficace sul pool delle cliniche, esso sarà B!

More Related