260 likes | 539 Views
Statistik II 5. Lektion. Log-lineære modeller. Log-linære Modeller. Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. Kan ses som en udvidelse af c 2 -testet af uafhængighed. Kontingenstabel.
E N D
Statistik II5. Lektion Log-lineære modeller
Log-linære Modeller • Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. • Kan ses som en udvidelse af c2-testet af uafhængighed.
Kontingenstabel • Contingency: Mulighed/tilfælde • Kontingenstabel: Antal observationer (frekvenser) i klasser givet ved krydstabulering af et antal kategoriske variable. • Eksempel på to-vejstabel: • Det ”sædvanlige” c2-test for uafhængighed:
Log-lineær Model • Antag vi har n personer og to kategoriske variable U (Uddannelse) og H (Holdning). • Sandsynligheden for at en tilfældigt valgt person har uddannelse u og holdning h er: • Den forventede frekvens for U=u og H=h er:
Parametrisk form • Generelt antager vi at de log forventede frekvenser er givet ved • Præcist som i multipel og lineær regression har vi hoved-effekter (bu og bh) samt en interaktionseffekt (buh). • Og som sædvanligt bruger vi dummy variable som regneteknisk trick til at håndtere kategoriske variable. hvor xu, xh og xuh er dummy variable.
Uafhængighed • To variable U og H er uafhængige hvis og kun hvis • For den log-lineære model betyder det: • Dvs. der er ikke et led der afhænger af bådeU og H.
Estimation • I SPSS estimerer man en log-lineær model vha. Analyze→ Loglinear→ General. • Vælg ’Estimates’ Under ’Options’. • Resultat:
Resultat • Estimerede model: • Fx: F11 = exp(7,097) = 1208.33 ≈ 1208 • Fx: F00 = exp(7,097-0.015-0.711+0.401) = 873.06 ≈ 873 • Bemærk: Der er hhv. 1208 og 873 i de to kobinationer.
Modelform • Selv uden dummy variable bliver log-lineære modeller hurtigt besværlige at skrive op. • I log-lineære modeller er modellens struktur mere interessant end parametrenes værdi. • Derfor skriver vi modellen på modelforlen U + H + U*H • Da modellen skal overholde det hierarkiske princip kan vi nøjes med at skrive U*H
Opbygning af en model • Først vælge variable af interesse • Dernæst specificerer vi en startmodel, der indeholder de interaktioner der er af faglig interesse. • Dog skal startmodellen overholder det hierarkiske princip. • Indeholder startmodellen et interaktionsled, hvor alle variable indgår kaldes startmodellen en mættet model. • Med udgangspunkt i en startmodel laves en backwards søgning. • I hvert trin fjerner vi det led i modellen meddet højst p-værdi over 0.05 – under hensyntagen til det hierarkiske princip. • Resultatet kaldes slutmodellen.
Større Eksempel • Analyse af sammenhængen mellem fire kategoriske variable: • B: Boligstandard: 0 = dårlig, 1 = acceptabel, 2 = god • H: Helbred: 0 = godt, 1 = dårligt • I: Isoleret: 0 = ja, 1 = nej • A: Angst: 0 = nej, 1 = ja • Vi starter med en mættet model, dvs. en model der indeholder interaktioner mellem alle fire variable. • Modelformel A*B*H*I
Krydstabel • Krydstabel over de fire variable: • SPSS: Analyze→ DescriptiveStatistics→ Crosstabs • H i row, B i column, I iLayer 1 og A i Layer 2: • Hvad siger I? Hvad er sammenhængene?
Startmodel • Startmodellen er en mættet model, dvs. • SPSS vælger som standard den sidste kategori som reference. • Alle parametre der involverer en eller flere referencekategorier sættes lig nul.
Modelsøgning • SPSS: • Modelsøgningen følger ”backwards” metoden • I hvert trin tester SPSS hvilke led i modellen, der kan fjernes i henhold til det hierarkiske princip. • Eksempel: Efter tre trin i modelsøgningen har vi modellen: B*H*A + H*I*A + B*I • Fjerner H*I*A da mindst signifikant (og over 0.05). Ny model: B*H*A+ B*I+H*I+I*A
Modelsøgning • SPSS: Analyze→ Loglinear→ Model selection • For hver variabel angiv variablens ”range”. • Under ’Model’ angiv startmodellen. • Default er en mættet startmodel. • Under ’Options’ kan I vælge ’Parameter estimates’
Slutmodel • Modelsøgningen ender med en slutmodel: • Dvs. slutmodellen er: B*I + H*I + I*A + B*H + B*A + H*A • Et ”goodness-of-fit” test af slutmodellen: • Konklusion: Vi kan ikke afvise at modellen passer.
Grafisk repræsentering • En grafisk repræsenteringopnås ved at • Tegn en cirkel for hver variabel. • Forbind variable, der indgår i samme modelled. • Eksempel: Antag modellen er A*B + B*H*I A B I H
Fortolkning af slutmodel • Uafhængighed: Hvis A indgår i modelformlen, men A ikke indgår i andre led (fx A*B, A*H, osv), så er A uafhængig. • Fx: A + B*H + B*I • Forklaret sammenhæng. Hvis B og H ikke indgår i samme led, så er en eventuel sammenhæng forklaret af andre variable. Dvs. slutmodellen må ikke indeholde fx B*H, B*H*A eller A*B*H*I. • Fx: B*I + A*I*H A B I H A B I H
Fortolkning af slumodel - fortsat • Homogen sammenhæng: Hvis A*H indgår i modellen, men A*H ikke indgår i merre komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholder A*H*I, A*B*H eller A*B*H*I. • Fx: A*H + A*I*B + B*H • Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I • Fx: A*B*H + A*I*B I B A H Bemærk at graferne er ens!! I B A H
Slutmodel: Fortolkning • I eksemplet var slutmodellen: B*I + H*I + I*A + B*H + B*A + H*A • Vi kan umiddelbart se, at vi ingen uafhængige variable har. • Af den grafiske repræsentation kan vi se, at der ingen forklarede sammenhænge optræder i modellen. • Vi har homogene sammenhænge mellem alle par af variable. A B I H
Parameterestimater + Modelkontrol • Slutmodellen er et udtryk for sammenhænge mellem variablene i modellen. • Slutmodellen siger ikke noget præcist om sammenhængene, fx negative eller positive sammenhænge. • Generelt er det svært at fortolke parametre… • SPSS kan estimere parametre i en given log-lineær model: • Analyze→ Loglinear→ General • Under ’Model’ vælg ’Custom’ og indsæt slutmodellen (først hovedeffekter, derefter to-vejs interaktioner osv). • Under ’Options’ vælg ’Estimates’ og de to plot for ’Adjustedresiduals’
Flere estimater… • Hvad er den forventede frekvens for A=0, B=1, H=0 og I=1?
Modelkontrol: Forventede vs Observerede • Ønskeligt: Expected ≈ Observed Variationen i Adj. Resid. er usystematisk.
QQ-plot • Prikkerne bør ligge usystematisk omkring linjen