Statistik Lektion 5

StatistikLektion 5 Log-lineære modeller

Log-linære Modeller • Log-linære modeller bruges til at analysere symmetriske sammenhænge mellem to eller flere kategoriske variable. • Kan ses som en udvidelse af c2-testet af uafhængighed.

Kontingenstabel • Contingency: Mulighed/tilfælde • Kontingenstabel: Antal observationer (frekvenser) i klasser givet ved krydstabulering af et antal kategoriske variable. • Eksempel på to-vejstabel: • Det ”sædvanlige” c2-test for uafhængighed:

Log-lineær Model • Antag vi har n personer og to kategoriske variable U (Uddannelse) og H (Holdning). • Sandsynligheden for at en tilfældigt valgt person har uddannelse u og holdning h er: • Den forventede frekvens for U=u og H=h er:

Parametrisk form • Generelt antager vi at de log forventede frekvenser er givet ved • Præcist som i multipel og lineær regression har vi hoved-effekter (bu og bh) samt en interaktionseffekt (buh). • Og som sædvanligt bruger vi dummy variable som regneteknisk trick til at håndtere kategoriske variable. hvor xu, xh og xuh er dummy variable.

Uafhængighed • To variable U og H er uafhængige hvis og kun hvis • For den log-lineære model betyder det: • Dvs. der er ikke et led der afhænger af bådeU og H.

Estimation • I SPSS estimerer man en log-lineær model vha. Analyze→ Loglinear→ General. • Vælg ’Estimates’ Under ’Options’. • Resultat:

Resultat • Estimerede model: • Fx: F11 = exp(7,097) = 1208.33 ≈ 1208 • Fx: F00 = exp(7,097-0.015-0.711+0.401) = 873.06 ≈ 873 • Bemærk: Der er hhv. 1208 og 873 i de to kombinationer.

Modelform • Selv uden dummy variable bliver log-lineære modeller hurtigt besværlige at skrive op. • I log-lineære modeller er modellens struktur mere interessant end parametrenes værdi. • Derfor skriver vi modellen på modelformen U + H + U*H • Da modellen skal overholde det hierarkiske princip kan vi nøjes med at skrive U*H

Opbygning af en model • Først vælge variable af interesse • Dernæst specificerer vi en startmodel, der indeholder de interaktioner der er af faglig interesse. • Dog skal startmodellen overholder det hierarkiske princip. • Indeholder startmodellen et interaktionsled, hvor alle variable indgår kaldes startmodellen en mættet model. • Med udgangspunkt i en startmodel laves en backwards søgning. • I hvert trin fjerner vi det led i modellen meddet højest p-værdi over 0.05 – under hensyntagen til det hierarkiske princip. • Dvs. vi fjerner det mindst statistisk signifikante modelled. • Resultatet kaldes slutmodellen.

Større Eksempel • Analyse af sammenhængen mellem fire kategoriske variable: • B: Boligstandard: 0 = dårlig, 1 = acceptabel, 2 = god • H: Helbred: 0 = godt, 1 = dårligt • I: Isoleret: 0 = ja, 1 = nej • A: Angst: 0 = nej, 1 = ja • Vi starter med en mættet model, dvs. en model der indeholder interaktioner mellem alle fire variable. • Modelformel A*B*H*I

Krydstabel • Krydstabel over de fire variable: • SPSS: Analyze→ DescriptiveStatistics→ Crosstabs • H i row, B i column, I iLayer 1 og A i Layer 2: • Hvad siger I? Hvad er sammenhængene?

Startmodel • Startmodellen er en mættet model, dvs. • SPSS vælger som standard den sidste kategori som reference. • Alle parametre der involverer en eller flere referencekategorier sættes lig nul.  Konstant/skæring  Hovedeffekter  To-vejs-interaktioner  Tre-vejs-interaktioner  Fire-vejs-interaktioner

Modelsøgning • SPSS: Analyze→ Loglinear→ Model selection • For hver variabel angiv variablens ”range”. • Under ’Model’ angiv startmodellen. • Default er en mættet startmodel. • Under ’Options’ kan I vælge ’Parameter estimates’

Modelsøgning • Modelsøgningen følger ”backwards” metoden • I hvert trin tester SPSS hvilke led i modellen, der kan fjernes i henhold til det hierarkiske princip. • Eksempel: Efter tre trin i modelsøgningen har vi modellen: B*H*A + H*I*A + B*I • Fjerner H*I*A da mindst signifikant (og over 0.05). Ny model: B*H*A+ B*I+H*I+I*A

Slutmodel • Modelsøgningen ender med en slutmodel: • Dvs. slutmodellen er: B*I + H*I + I*A + B*H + B*A + H*A • Et ”goodness-of-fit” test af slutmodellen: • Konklusion: Vi kan ikke afvise at modellen passer.

Grafisk repræsentering • En grafisk repræsentation opnås ved at • Tegn en cirkel for hver variabel. • Forbind variable, der indgår i samme modelled. • Eksempel: Antag modellen er A*B + B*H*I A B I H

Fortolkning af slutmodel • Uafhængighed: Hvis A indgår i modelformlen, men A ikke indgår i andre led (fx A*B, A*H, osv), så er A uafhængig. • Fx: A + B*H + B*I • Forklaret sammenhæng. Hvis B og H er ”forbundet” via andre led, men ikke indgår i samme led, så er en eventuel sammenhæng forklaret af andre variable. Dvs. slutmodellen må ikke indeholde fx B*H, B*H*A eller A*B*H*I. • Fx: B*I + A*I*H Sammenhægen mellem B og H er forklaret af I og A. A B I H A B I H

Fortolkning af slumodel - fortsat • Homogen sammenhæng: Hvis A*H indgår i modellen, men A*H ikke indgår i mere komplicerede led, så er sammenhængen mellem A og H homogen. Dvs. modellen må ikke indeholder A*H*I, A*B*H eller A*B*H*I. • Fx: A*H + A*I*B + B*H • Heterogen sammenhæng: Hvis A*H indgår i modellen som en del af et mere kompliceret led, så er sammenhængen mellem A og H heterogen. Dvs. modellen skal indeholde A*B*I, A*B*H eller A*B*H*I • Fx: A*B*H + A*I*B I B A H Bemærk at graferne er ens!! I B A H

Slutmodel: Fortolkning • I eksemplet var slutmodellen: B*I + H*I + I*A + B*H + B*A + H*A • Vi kan umiddelbart se, at vi ingen uafhængige variable har. • Af den grafiske repræsentation kan vi se, at der ingen forklarede sammenhænge optræder i modellen. • Vi har homogene sammenhænge mellem alle par af variable. A B I H

Parameterestimater + Modelkontrol • Slutmodellen er et udtryk for sammenhænge mellem variablene i modellen. • Slutmodellen siger kun, at der er sammenhænge, men ikke om det fx er negative eller positive sammenhænge. • Generelt er det svært at fortolke parametre… • SPSS kan estimere parametre i en given log-lineær model: • Analyze→ Loglinear→ General • Under ’Model’ vælg ’Custom’ og indsæt slutmodellen (først hovedeffekter, derefter to-vejs interaktioner osv). • Under ’Options’ vælg ’Estimates’ og de to plot for ’Adjustedresiduals’

SPSS…

Estimater

Flere estimater… • Hvad er den forventede frekvens for A=0, B=1, H=0 og I=1?

Modelkontrol: Forventede vs Observerede • Ønskeligt: Expected ≈ Observed Variationen i Adj. Resid. er usystematisk.

QQ-plot • Prikkerne bør ligge usystematisk omkring linjen

Statistik Lektion 5

Statistik Lektion 5

Presentation Transcript

Statistik II 5. Lektion

Statistik Lektion 4

Statistik Lektion 2

Statistik Lektion 4

Statistik Lektion 7

Statistik Lektion 7

Statistik Lektion 8

Statistik II Lektion 5 Modelkontrol

Statistik Lektion 3

Statistik Lektion 4

Statistik Lektion 6

Statistik Lektion 8

Statistik Lektion 3

Statistik Lektion 1

Statistik – Lektion 2

Statistik Lektion 5

Statistik 1 – Lektion 5

Statistik Lektion 8

Anvendt Statistik Lektion 5

Statistik Lektion 2

Statistik Lektion 1

Statistik Lektion 6