750 likes | 936 Views
“Teoria e metodi della ricerca sociale e organizzativa”. Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti. Relazioni tra variabili. La relazione tra variabili può essere caratterizzata da: forma forza direzione.
E N D
“Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti
Relazioni tra variabili • La relazione tra variabili può essere caratterizzata da: • forma • forza • direzione.
Forma della relazione • La forma di una relazione caratterizza i possibili modi in cui i valori delle variabili sono associati. • La forma può caratterizzare anche il segno di una relazione (quando le variabili sono metriche o ordinali).
Percentuali di riga (di cella e marginali) ESEMPIO: forma di una relazione I maschi sono più istruiti delle donne.
ESEMPIO: forma di una relazione Presenza di malattie per fascia d’età Elaborazioni Multiscopo AVQ 2003
Forza della relazione La forza della relazione misura il grado di “covariazione” tra le variabili. In altre parole indica il potere predittivo di una variabile sull’altra. “Qualunque fenomeno, che vari in un modo qualsiasi ogni volta che un altro fenomeno varia in qualche modo particolare, è una causa o un effetto di quel fenomeno, p è connesso a quel fenomeno mediante qualche fatto di causazione” John Stuart Mill
ESEMPIO: forza di una relazione V di cramer = 0,035
ESEMPIO: forza di una relazione Coefficiente di determinazione tra anni di scolarità del padre e anni di scolarità del figlio r2 = 0.37
Direzione della relazione • Quando è possibile ipotizzare un rapporto di causazione, allora è possibile attribuire alle variabili lo status di dipendenti o indipendenti e definire quindi una direzione di successione. X Y
ESEMPIO: direzione della relazione Stabiliamo che l’istruzione condizioni il reddito ! Regressione lineare Ogni anno di scolarità in più “produce” in media un incremento nel reddito di 128 euro
Variabili indipendenti e dipendenti • A seconda della posizione che le variabili occupano in un’ipotesi causale esse si costituiscono come variabili dipendenti o indipendenti. • Una stessa variabile dunque può essere dipendente o indipendente a seconda del modello analitico in cui è inserita. • Ad esempio la coorte d’età (X) può condizionare il titolo di studio (Y). Ma in un altro caso il titolo di studio (X) può essere il fattore condizionante della carriera lavorativa (Y).
Applicazioni di analisi bivariata su variabili categoriali su variabili ordinali su variabili cardinali
Variabili categoriali (o nominali) Su esse registriamo un numero finito di stati (modalità) che riteniamo non ordinabili lungo alcuna dimensione concettuale. Le modalità godono di un alto grado di autonomia semantica.
L’Analisi Bivariata Tratta lo studio della distribuzione dei dati osservati sugli stati di due variabili. Si indagano le relazioni intercorrenti tra due variabili. Possono dare risposta a semplici interrogativi teorici.
L’Analisi Bivariata Tavole di contingenza, o tabelle a doppia entrata, o incroci Costituiscono lo fase più elementare nello studio delle relazioni tra due variabili.
Frequenze di cella (R x C) e marginali (R + C) Variabile X sulle righe, variabile Y sulle colonne Struttura di una tavola di contingenza
Struttura di una tavola di contingenza Righe: i = 1…R Colonne: j = 1…C fij frequenza della cella della i-esima riga e j-esima colonna fi. frequenza marginale della i-esima riga f.j frequenza marginale della j-esima colonna
Frequenze di cella e marginali Variabile X sulle righe, variabile Y sulle colonne Struttura di una tavola di contingenza
Percentuali totali di cella e marginali Struttura di una tavola di contingenza
Percentuali totali di cella e marginali Struttura di una tavola di contingenza
Percentuali CONDIZIONATE di riga (di cella e marginali). Struttura di una tavola di contingenza
Percentuali CONDIZIONATE di riga (di cella e marginali) Struttura di una tavola di contingenza Le percentuali di riga considerano lo stesso numero di maschi e femmine (=100).
Differenze percentuali tra percentuali condizionate - 1,5 % + 0,8 % Differenza % tra maschi e femmine sul titolo dell’obbligo ( a parità di numero). Differenza % tra maschi e femmine sul titolo universitario ( a parità di numero). Le differenze calcolate confrontando le percentuali di riga (ossia rispetto alla variabile indipendente) sulla stessa modalità della variabile dipendente permettono di misurare l’influenza (ipotetica) della variabile indipendente.
Percentuali di colonna (di cella e marginali). Struttura di una tavola di contingenza
Gli odds ratio • Le relazioni tra variabili possono essere analizzate in termini probabilistici. • L’odds ratio è una misura dell’associazione tra due variabili. • L’odds è un rapporto di probabilità. • L’odds ratio è un rapporto di odds.
Odds • Un odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria. Esempio: distribuzione di freq. in base alla variabile “diploma di laurea” Odd= 471/685 = 0,688 (in decimali) Prob.= 471/1156 = 0,407 = 40,7% Le probabilità variano da 0 a 1 Gli odds variano da 0 a +inf.
Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi • Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi • Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.
Odds marginali • L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688 • L’odds marginale inverso sarà 1/0.688=1.454. La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.
Odds condizionali La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono 0.875 =237/271. Per le donne i corrispondenti odds si attestano a 0.565 =234/414
Odds ratio Il modo in cui i due odds condizionali differiscono l’uno dall’altro può essere espresso dal loro rapporto: 0.875/0.565=(237/271)/(234/414)=1.547 L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria. L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.
Y X Relazione tra probabilità, odds ed odds ratio e in una tavola due X due:
Misure di associazione tra variabili categoriali Chi-quadrato (Test di significatività) V di Cramer Q di Yule Phi
Il Chi-quadrato si basa su un confronto tra l’ipotesi di perfetta indipendenza delle due variabili, ed il fenomeno così come è stato osservato. Si confrontano le frequenze di cella attese con quelle osservate. Le frequenze attese di cella si trovano assumendo che la relazione tra le variabili sia dovuta al caso, e si calcolano attraverso la scomposizione delle frequenze marginali. Chi-Quadrato χ2
Frequenze attese di cella (R x C): Chi-Quadrato χ2 In situazione di perfetta indipendenza il χ2 vale zero
Maggiore è il valore di χ2 , maggiore è l’associazione tra le variabili, poiché maggiore è la distanza dall’ipotesi di perfetta indipendenza. Se le due variabili sono indipendenti χ2 vale 0. Chi-Quadrato χ2 i=1…R j=1…C Dove f*ij è la frequenza attesa di cella
Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del Chi-Quadrato. Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività l’ipotesi nulla che la relazione tra due variabili sia dovuta al caso. Test del Chi-Quadrato χ2
Gradi di libertà: Test del Chi-Quadrato χ2 Il grado di libertà consiste nei valori da immettere che non possono essere calcolati automaticamente con i totali marginali. 30 10 20 0 df=1
Testiamo l’H0,l’ipotesi nulla che afferma l’indipendenza, ossia che la relazione tra le due variabili è dovuta al caso. Test di significatività Si stabilisce un livello di significatività oltre il quale respingere l’Ho.
Distribuzione di probabilità nota della v.c. χ2 = 1 - α φ(χ2) Funzione di densità di χ2con gl=10 AREA di Rifiuto di H0 0.3 0.7 χ2 0 11,78
Logica falsificazionista, Ipotesi H1 IPOTESI di LAVORO: - Ipotesi di associazione tra due variabili χ2 >0 H0 IPOTESI NULLA: -Le due variabili sono tra loro indipendenti χ2 =0
Per corroborare H1 devo falsificare H0. Non verifico H1, ma ne falsifico l’ipotesi “complementare” attraverso un test empirico che mi porterà ad accettare o respingere H0. Se rifiuto H0, allora l’ipotesi di lavoro H1 viene corroborata. Se “accetto” H0, non possiamo escludere che l’associazione non sia dovuta al caso, l’ipotesi di lavoro H1 viene falsificata. ATTENZIONE: Nella logica falsificazionista H0 non è un’ipotesi alternativa che sostituisce H1. Più correttamente occorrerebbe affermare che H0 non può essere rifiutata, non che H0 è accettata. Logica falsificazionista, Ipotesi
Realtà del fenomeno Logica falsificazionista, errori Esito del test
αè la probabilità teorica di rifiutare a priori l’H0 quando questa è vera. α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %. α = 0,05
Livello di significatività α ; costituisce l’area di RIFIUTO di H0, ossia l’area di ACCETTAZIONE di H1 α χ2 χ2α 0
φ(χ2) Funzione di densità di χ2 φ(χ2) χ2 0
Il χ2E’ FUNZIONE DEI GRADI DI LIBERTA’ φ(χ2) g=4 g=10 g=20 χ2 0
Valore critico del Chi-quadro corrispondente per 2 gradi di libertà e area alfa dello 0,05 α 0