1 / 45

“Analisi di dati categoriali”

“Analisi di dati categoriali”. Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti. I modelli log-lineari.

Download Presentation

“Analisi di dati categoriali”

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. “Analisi di dati categoriali” Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti

  2. I modelli log-lineari • I modelli log-lineari rappresentano un approccio complementare e compatto al problema dell’analisi multivariata delle variabili categoriali • Obiettivo: esprimere la struttura della tabella di contingenza a più vie con un numero limitato di parametri • Il modello si configura come una descrizione plausibile e parsimoniosa della realtà

  3. Il modello moltiplicativotavola 2x2 Le frequenze possono essere espresse come funzione moltiplicativa di quattro parametri  effetto generale, effetto numerosità iAeffetto marginale della variabile A jB effetto marginale della variabile B ijAB effetto interazione fra le var A e B L’assenza di un effetto si avrà quando il parametro indicante quell’effetto assume valore 1

  4. Esempio Tab. contingenza 2 x 2 di mobilità intergenerazionale B A 4 equazioni per 9 incognite! Occorre introdurre dei vincoli !

  5. La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche Il prodotto dei parametri relativi alle stesse variabili deve essere uguale iA =1  jB =1  ijAB =1 Svolgendo le produttorie ne deriva: 1A 2A =1 ossia 1A=1/2A 1B 2B =1 ossia 1B=1/2B 11AB =22AB = 1/12AB=1/ 21AB

  6. Parametrizzazione di Goodman 4 incognite per 4 valori osservati

  7. Calcolo dell’effetto numerosità B Frequenze osservate A Media geometrica delle frequenze di cella. Cattura l’effetto dovuto alla numerosità dei casi.

  8. Calcolo dell’effetto marginale di A B Frequenze osservate A E’ la radice quarta dell’effetto marginale di A. Se minore di 1 le chance di avere origini borghesi sono minori di quelle di essere CMI.

  9. Calcolo dell’effetto marginale di B B Frequenze osservate A E’ la radice quarta dell’effetto marginale di B. Se minore di 1 le chance di avere destinazione borghese sono minori di quelle di essere CMI.

  10. Calcolo dell’effetto interazione B Frequenze osservate A E’ la radice quarta dell’odds ratio, che misura l’associazione tra le due variabili A/B. Se maggiore di 1, i soggetti di origine borghese (piuttosto che CMI) hanno più chance di diventare borghesi (piuttosto che CMI).

  11. Calcolo degli effetti B A

  12. Ricostruzione delle frequenze. Le frequenze ricostruite (attese) sono uguali a quelle osservate nella tabella.

  13. L’uso di pochi parametri (che costituiscono il modello dei dati osservati)ci permette di interpretare gli effetti, ma anche di testare delle ipotesi.VEROSIMIGLIANZA E PARSIMONIA

  14. Note conclusive modello moltiplicativo Il parametro (e dove 1,284=2,76 è l’odds ratio) 1,28 è l’effetto interazione o associazione tra A e B e quindi evidenzia la forza dell’associazione tra le variabili La forza della relazione è tanto maggiore quanto più ci allontaniamo da 1. La relazione è positiva se il valore del parametro è superiore ad 1, mentre è negativa se il valore è inferiore ad 1.

  15. Modelli insaturi • Fij= iAjBijAB modello saturo • Fij= iAjB modello insaturo, assumiamo che tra la var.A e la var.B ci sia indipendenza, dunque poniamo l’effetto interazione (ijAB) pari a 1. • Fij= iAmodello insaturo, la struttura si semplifica ulteriormente. Fissiamo l’effetto marginale della variabile B pari a 1 • Fij=   modello insaturo, la struttura si semplifica ulteriormente. Assumiamo che i casi siano distribuiti in modo uniforme in tutte le celle.

  16. Il modello additivo Tavola 2x2 Attraverso il logaritmo le frequenze possono essere espresse come funzione additiva ossia come somma dei quattro parametri. L’equazione log-lineare può essere considerata come un’equazione di regressione nella quale l’unità di analisi non sono gli individui bensì le celle (la var. dipendente è rappresentata dal logaritmo della frequenza di cella) (Corbetta 1992)

  17. La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche nel modello additivo • La somma dei parametri lambda delle varie categorie di una stessa variabile deve essere uguale a zero. iA =0 jB =0 i jijAB =0 Svolgendo le sommatorie ne deriva 2A = - 1A 2B = - 1B 22AB = 11AB = - 12AB = - 21AB Tale parametrizzazione, introducendo vincoli sui parametri, serve per identificare il modello: in altre parole, abbiamo 4 equazioni e 9 parametri da stimare a partire dalle quattro celle di frequenze. Con tale parametrizzazione le 4 frequenze di cella di una tavola 2x2 possono essere ottenute combinando 4 parametri

  18. Calcolo degli effetti modello additivo INTERPRETAZIONE DEI LAMBDA Gli effetti dei marginali e di interazione possono essere considerati in termini di deviazioni dai valori medi delle frequenze di celle. Lo squilibrio fra i due marginali è maggiore per la variabile B rispetto alla variabile A Il valore positivo di 11AB segnala la presenza di una relazione positiva. Le celle 11 e 22 presentano una frequenza più alta rispetto al caso di indipendenza.

  19. Ricostruiamo la tab.2*2 con il modello additivo: le frequenze ricostruite (attese) sono uguali a quelle osservate. lnF11 = + 1A+ 1B+ 11AB=3,85 lnF12 = + 1A- 1B- 11AB=3,97 lnF21 = - 1A+ 1B- 11AB=3,78 lnF22 = - 1A- 1B+ 11AB=4,92

  20. Modelli insaturi lnFij= +iA+jB +ijABmodello saturo lnFij= +iA+jB modello insaturo, fissiamo l’effetto interazione pari a zero lnFij= +iAfissiamo l’effetto interazione e il marginale della var.b pari a zero lnFij=  fissiamo l’effetto interazione e gli effetti dei marginali della var.A e della var.B pari a zero

  21. Come si calcolano gli errori standard delle stime dei parametri R = numero di categorie della variabile di riga C = numero di categorie della variabile di colonna L’ipotesi nulla secondo la quale nella popolazione il valore di lambda è uguale a zero può essere verificata utilizzando un test t.

  22. TEST DI SIGNIFICATIVITA’ DEI PARAMETRI Rapportiamo i parametri stimati all’errore standard per calcolare i valori t da confrontare con quelli critici.

  23. Dal momento che i valori ottenuti sono superiori in valore assoluto a ±1,98 (il valore critico di t per alfa=0,05) possiamo concludere che i parametri sono significativamente diversi da zero per alfa=0,05. Non si può passare ad un modello insaturo. Soglia -1,98 Soglia +1,98 0,95 0,025 0,025 T 0 IPOTESI NULLA

  24. INTERVALLI DI CONFIDENZA DEI PARAMETRI Possiamo calcolare gli I.C. dei parametri aggiungendo il valore t all’errore standard: lim.inf. lim.sup. lim.inf. lim.sup. 1,61 lim.inf. 4,58 lim.sup.

  25. MODELLI TEORICI Notazione (AB) (A)(B) (A) (B) *Il modello saturo riproduce i dati osservati.

  26. Test dei modelli • I modelli con tutti i parametri che ci consentono di realizzare l’identità tra frequenze attese ed osservate si chiamano saturi (esso conterrà tanti parametri quante sono le celle). • I modelli semplificati, nei quali uno o più parametri vengono fissati a zero vengono definiti insaturi • Il modello insaturo genererà delle frequenze teoriche o frequenze attese che verranno confrontate con le frequenze osservate.

  27. Se gli scarti tra frequenze attese e osservate sono di entità ridotta il modello semplificato (o insaturo) verrà accettato. • Il confronto fra frequenze attese e frequenze osservate viene fatto sulla base del calcolo della statistica L2 • Nota come statistica del chi-quadrato del rapporto di verosimiglianza. Si distribuisce come una variabile chi-quadrato con tanti gradi di libertà quanti sono i parametri lambda indipendenti posti a zero.

  28. Il modello teorico non deve scostarsi troppo dai dati osservati. L’H0 è che il modello si scosta troppo (contrariamente al test di indipendenza del Chi-quadrato!) g = gradi di libertà Non posso rifiutare H0 Rifiuto H0 P L2 0 L2p Probabilità che il modello sia vero ! DATI OSSERVATI MODELLO

  29. SEX*TITOLODISTUDIO Modello saturo (P=1) Probabilità che il modello sia “vero” !

  30. SINTASSI SPSS data list free/ n sex titolo. begin data 696 1 1 292 1 2 586 2 1 285 2 2 end data. weight by n. value labels sex 1'm' 2'f' /titolo 1 'licmedia' 2 'diploma'. HILOGLINEAR sex(0 1) titolo(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN .

  31. L’obiettivo è trovare un modello con un basso valore di L2 ad esso associato e quindi con un’alta probabilità di rappresentare la struttura delle relazioni tra le variabili a livello di popolazione. • Un modello viene corroborato quanto i dati osservati hanno un’elevata probabilità di essere generati dal modello ipotizzato. • Il rapporto di verosimiglianza è utile per individuare gli scarti tra modello e dati quanto il campione non supera i 1500 casi. • Quando il campione è molto ampio l’adozione della statistica L2 comporta il rifiuto di modelli “buoni”. • Il valore della statistica L2 aumenta all’aumentare della dimensione del campione.

  32. BIC Una statistica più appropriata per valutare la bontà di adattamento del modello ai dati è rappresentata dal Criterio bayesiano di informazione (BIC) LnN è il logaritmo naturale della dimensione del campione Il BIC rappresenta un buon compromesso tra capacità di riproduzione dei dati e parsimonia. Più negativo è il valore assunto dalla statistica BIC, migliore è l’adattamento ai dati di un certo modello.

  33. MODELLO A TRE VIEModelli gerarchici

  34. Nei modelli gerarchici le relazioni multivariate di un certo livello includono tutte le relazioni più semplici di livello subordinato.Le frequenze attese vengono stimate sulla base del modello teorico attraverso algoritmi iterativi (ad esempiol’“adattamento proporzionale iterativo”)

  35. Esempi di notazione dei modelli gerarchici A=area S=sex E=educ (ASE) - modello saturo lnFijk=  + iA + jS + kE + ijAS +ikAE +jkSE + ijkASE (AS)(AE)(SE) – effetti a due lnFijk=  + iA + jS + kE + ijAS + ikAE + jkSE (AS)(SE) – effetti a due di sole due variabili lnFijk=  + iA + jS + kE + ijAS + jkSE (A)(S) – effetti marginali di sole due variabili lnFijk=  + iA + jS

  36. Probabilità che il modello sia “vero” ! ESEMPIO DI VALUTAZIONE DEI MODELLI

  37. CONFRONTO FRA MODELLI ELIMINAZIONE DEI PARAMETRI DAI MODELLI PROCEDURA BACKWARD Si parte dal modello saturo e si eliminano man mano i parametri che non tolgono verosimiglianza. Si aumenta la parsimonia lasciando il modello verosimile

  38. *PM (1=favorevole alla pena di morte 2=non favorevole)*REL(1=non-praticante 2=praticante)*POL(1=centro-destra 2=centro-sinistra)

  39. VALUTAZIONE DEL PASSAGGIO DAL MODELLO SATURO AL MODELLO 2 L22 - L21= 0,095 g2 - g1 =1 ACCETTATO ! VALUTAZIONE DEL PASSAGGIO DAL MODELLO 2 AL MODELLO 3 L23 - L2 2=126,835 g3 - g2 =1 NON ACCETTATO! Il passaggio da un modello all’altro è valutato attraverso la differenza tra i valori L2 associati ai due modelli (+ PARSIMONIOSO -PARSIMONIOSO), e la differenza tra i rispettivi gradi di libertà. Delta L2 e Delta G hanno la distribuzione nota del Chi-quadrato, per cui è possibile effettuare un test di significatività.

  40. *PM (1=favorevole alla pena di morte 2=non favorevole) *REL(1=non-praticante 2=praticante) *POL(1=centro-destra 2=centro-sinistra) data list free/ PM REL POL PESO. begin data 1 1 1 456 1 1 2 344 1 2 1 213 1 2 2 37 2 1 1 112 2 1 2 184 2 2 1 110 2 2 2 38 end data. weight by PESO. LOGLINEAR PM(1,2) REL(1,2) POL(1,2) /PRINT= ESTIM /DESIGN = PM REL POL PM BY REL PM BY POL REL BY POL.

  41. SESSO EDUCAZIONE AREA Abbiamo una relazione tra genere (M/F) e educazione (D/ND). Vogliamo sapere se l’area geografica (sud/nord) influisce su questa relazione. Modello: area*sex*educ lnFijk=  + iA + jS + kE + ijAS +ikAE +jkSE + ijkASE Costruiamo un modello teorico di indipendenza e lo confrontiamo con le frequenze osservate. Si tratta di porre a zero i seguenti parametri: ijkASE

  42. Modello saturo ASE Modello area*sex*educ lnFijk=  + iA + jS + kE + ijAS +ikAE +jkSE + ijkASE

  43. SINTASSI SPSS HILOGLINEAR sex(0 1) titolo(0 1) area(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN . Modello saturo

  44. (A)(S)(E) lnFijk=  + iA + jS + jE

  45. Altro esempio: SPSS SESSO*TITOLODISTUDIO*STATOCIVILE === STC Modello più parsimonioso: (ST)(C)

More Related