490 likes | 602 Views
“Teoria e metodi della ricerca sociale e organizzativa”. Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti. Applicazioni di analisi bivariata su variabili cardinali. Diagramma di dispersione tra voto maturità e reddito.
E N D
“Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti
Diagramma di dispersione tra voto maturità e reddito Per rappresentare graficamente la relazione tra due variabili cardinali si utilizza solitamente il piano cartesiano dove i valori assunti sulle due variabili costituiscono le coordinate dei punti. Soggetto con reddito=1000 e voto=52.
COVARIANZA La covarianza è una misura della covariazione di due variabili cardinali. Ci dice se al variare di una variabile anche l’altra varia. Varianza di Y Varianza di X
COVARIANZA La covarianza è una misura simmetrica. La covarianza appartiene all’insieme dei numeri reali (-infinito, +infinito). Se due variabili sono tra loro indipendenti la covarianza è nulla ! .
Covarianza tra voto di maturità e voto laurea La covarianza è uguale a 74/5 = +14,8
Covarianza tra età e n. amici incontrati settimanalmente La covarianza è uguale a -109,8/5 = - 22
Covarianza tra Q.I. e giorno di nascita La covarianza è uguale a -1,6/5 = -0,3
Y X Lo scopo della regressione è tradurre la relazione tra X e Y in forma di un’equazione lineare del tipo: Dove, ad ogni incremento di una unità di X, corrisponde un aumento di Y equivalente a b
Y e1 X La stima di a e b si ottiene attraverso il metodo dei minimi quadrati (OLS – Ordinary Least Squares), in cui viene minimizzato l’errore tra la Y osservata e l’Y predetta. MIN
I parametri a e b dell’equazione che minimizzano l’errore vengono calcolati attraverso la soluzione delle derivate prime parziali (due incognite per due equazioni). MIN
Attraverso il metodo dei minimi quadrati troviamo l’equazione di regressione tra Y e X, stimando a e b della retta: Equazione predittiva Equazione di regressione
B (o beta) è detto COEFFICIENTE DI REGRESSIONE, e indica, per ogni incremento di una unità di X, quanto aumenta Y
Y e1 X Valore osservato i-esimo Valore medio della distribuzione Valore predetto i-esimo Errore i-esimo
Y e1 X e1 10 – 12 = (10 – 5) + (5 – 12)
Elevando al quadrato e sommando tutti gli scarti si arriva alla: Scomposizione della somma dei quadrati In una regressione è possibile scomporre la variazione in una parte “spiegata” dalla variabile indipendente (o dalla regressione) ed un parte residua (o errore)
Coefficiente di determinazione R2 varia tra 0 ed 1 ed è massimo quando l’errore di predizione è nullo, ed è 0 quando Y ed X sono completamente indipendenti tra loro. Esprime la forza di predizione di X su Y.
Coefficiente di determinazione R2 non è altro che il rapporto tra la covarianza tra X e Y, ed il prodotto delle varianze delle due variabili. Vedi
Coefficiente di correlazione lineare di Pearson rvaria tra -1 ed 1 , e quindi informa sul segno della relazione tra X e Y. Esso è simmetrico, nel senso che invertendo X con Y troviamo lo stesso r.
Variabili standardizzate: quando le variabili vengono standardizzate (sottratte della media e divise della dev.std.), annulliamo l’effetto di scala e possiamo confrontare i coefficienti in termini “standard”. Equazione predittiva
Variabili standardizzate: In tal caso e solo in tal caso, in una regressione bivariata, il coefficiente di regressione è uguale al coefficiente di correlazione. Equazione predittiva Covarianza tra Zx e ZY
STIMA DEI PARAMETRI DI REGRESSIONE Affinché si possano inferire le stime di regressione alla popolazione di riferimento di un campione devono essere rispettati due assunti: • La popolazione Y è distribuita normalmente per ogni valore di X. • Le varianze degli errori di predizione sono identiche per ogni valore di X (omoschedasticità)
Y 1) La popolazione Y è distribuita normalmente per ogni valore di X. X Se non è rispettato l’assunto: le stime puntuali non sono corrette.
2) Le varianze degli errori di predizione sono identiche per ogni valore di X (omoschedasticità) Y Situazione di eteroschedasticità X Se non è rispettato l’assunto: le stime puntuali sono corrette, ma gli I.C. potrebbero risultare distorti.
PARAMETRI DELLA POPOLAZIONE STIME DEI PARAMETRI
Applicazioni di analisi bivariata tra una variabile cardinale ed una nominale
Quando poniamo in relazione due variabili, una nominale e l’altra cardinale possiamo utilizzare l’analisi della varianza. L’analisi della varianza ANOVA (ANalysis Of Variance)
In quale area geografica ci sono più figli presenti nel nucleo familiare? Modalità K=5
Rappresentazione in tabella della relazione. MEDIA GENERALE
Come è possibile inferire se le differenze nelle medie tra i gruppi sono “vere” anche nella popolazione ?
SCOMPOSIZIONE DELLA VARIANZA Lo scarto tra il singolo valore osservato e la media generale può essere visto come la somma di due entità: 1) lo scarto con il valore dalla media del gruppo, 2) lo scarto di quest’ultima dalla media generale Caso i del gruppo k Media gruppo k Media generale
SCOMPOSIZIONE DELLA VARIANZA Somma totale degli scarti Somma esterna degli scarti Somma interna degli scarti Parte non spiegata dai gruppi !!! Parte spiegata dai gruppi !!!
SCOMPOSIZIONE DELLA VARIANZA Somma totale degli scarti Somma esterna degli scarti Somma interna degli scarti Total Within Between Se le differenze tra i gruppi sono massime, la relazione tra le variabili è perfetta, le medie di gruppo Yk spiegano tutta la varianza complessiva e la varianza interna (o residua) è uguale a zero. Se non ci sono differenze tra i gruppi, le medie di gruppo non spiegano nulla. La varianza complessiva è uguale alla varianza interna (o residua).
Per stimare la varianza nella popolazione occorre tenere presente i gradi di libertà dei diversi elementi: Gradi di libertà totali Gradi di libertà interni Gradi di libertà esterni Stima Varianza totale = Stima Varianza “intra” + Stima Varianza “tra” Varianza residua, non spiegata dai gruppi !!! Varianza spiegata dai gruppi !!!
RAPPORTO F Il rapporto F ha una distribuzione casuale nota, detta F di Snedecor. E’ possibile applicare un test di significatività statistica. F molto piccolo significa che i gruppi non fanno differenza (ossia non spiegano nulla dell’eterogeneità della variabile cardinale). Le due variabili sono tra loro indipendenti. Maggiore è F, maggiore è la “spiegazione” apportata dai gruppi, maggiore è la relazione tra le due variabili.
F di Snedecor Gradi di libertà: K=3 N=120 0 1 2 3 4 5
Alcuni valori critici della F di Snedecor gdl “fra” = K-1 gdl “fra” = K-1 gdl “intra” N-K
In quale area geografica ci sono più figli presenti nel nucleo familiare?
F osservato = 396,4 Valore critico di Falfa=0,05 =2,38 Dato che il valore osservato ricade nell’area a destra della soglia critica rifiuto H0. La relazione è statisticamente significativa allo 0,05. Con numerosità elevate il test ha quasi sempre esito positivo !!!
Come misura della forza della relazione tra la variabile cardinale e la variabile nominale viene usata la misura ETA-QUADRO. Eta2 varia tra 0 ed 1 ed è interpretabile come il coefficiente di determinazione R2.