180 likes | 355 Views
Repetition: likelihood ratio test. Test af hvorvidt faktorer med flere end 2 niveauer (mere end 1 parameter) kan udelades fra model: likelihood ratio test. Likelihood: sandsynlighed for at observere data anskuet som en funktion af de ukendte parametre.
E N D
Repetition: likelihood ratio test • Test af hvorvidt faktorer med flere end 2 niveauer (mere end 1 parameter) kan udelades fra model: likelihood ratio test. • Likelihood: sandsynlighed for at observere data anskuet som en funktion af de ukendte parametre. • Maximum likelihood estimater: de parameter-værdier, som maximerer likelihood-funktionen. • Jo større likelihood des bedre passer model til data.
sammenlign maximal likelihood L0 for model uden faktor med maximal likelihood L1 for model indeholdende faktoren. • Likelihood ratio L0/L1 mindre end 1 og L0/L1 lille det samme som -2 (log L0- log L1) stor. • Dvs. store værdier af -2 (log L0- log L1) kritiske for H0.
Eksempel: coronary heart disease Tilpasser logistisk regression med separat sandsynlighed for chd i hver aldersgruppe. NB: -2log likelihood for null model og aktuelle model NB: agrp signifikant
Goodness of fit • Goodness of fit test: H0: “aktuel model passer”. • Deviance -2 (log L0-log L1) : sammenligner L0: maximal likelihood under aktuelle model med L1: maximal likelihood for “mættet” model. NB: i dette tilfælde er mættet model=aktuel model dvs. Pearson og Deviance er begge nul.
Model med age som covariate ? Husk: parameterestimater giver logit(p) ! Ex (agrp=5): logit(p5)=1.946-2.1=-0.154 dvs. p5=0.462 Jvf. plots sidste gang kunne det se ud som logit(p) lineær funktion af alder.
Age som covariate NB: odds ratio når alder øges 1 år: exp(0.11)=1.117 NB: her stemmer wald og likelihood ratio overens.
Goodness of fit Goodness of fit test ikke signifikant – ikke evidens mod aktuelle model. Pas på: mange grupper med kun 1 observation… kan gøre goodness of fit testet upålideligt.
Model med agrp eller age bedst ? • - 2 log likelihood med agrp: 20.83 • - 2 log likelihood med age: 58.72 • Men forskellig gruppering (finere gruppering med age!) • - 2 loglikelihood med agrp og samme gruppering som for age: 57.985
Akaikes Informations Kriterie (AIC) • AIC= - 2 log likelihood + 2 * antal parametre • Antal parametre: modellens kompleksitet • - 2 log likelihood: modellens fit • Jo mindre AIC des bedre (godt fit og lille kompleksitet) • AIC for agrp model: 57.985+2*8 • AIC for age model: 58.72+2*2 • Dvs model med age som covariate er at foretrække !
Regressions-modeller: opsummering • Typer af variable • Lineær/multipel regression • Logistisk regression • Eksempel
Respons/afhængig variabel • Kontinuert/kvantitativ: lineær/multipel regression. • Kategorisk/binær: logistisk regression Valg af model afhænger af responsvariablen !
Multipel regression • Modellerer den forventede værdi af observationerne: NB: forklarende variable kan både være kategoriske (faktorer) og kontinuerte (kovariater) NB: likelihood ratio tests kaldes F-tests !
Logistisk regression • Respons y er binomial fordelt. Modellerer logit til sandsynlighedsparameteren: NB: forklarende variable kan både være kategoriske (faktorer) og kontinuerte (kovariater)
Eksempel: prestige score for arbejde • Sociologisk studie fra USA • Undersøge respondents arbejdsprestige scores afhængighed af alder og race og køn.
Model med age som kategorisk • Danner kategorisk age-variabel: <=40, 40< og <=60, >60 • Slutmodel (efter trinvis modelselektion): sex+race+race*sex
Residual plot Checker om fejl er normalfordelte: Normalfordeling rimelig approximation.