420 likes | 609 Views
Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable. Logistisk regression: 2 binære var. Setup: To binære variable X og Y . Statistisk model: Konsekvens:. Logit-forskelle og Odds-ratio. Logit-forskel Odds-ratio. Likelihood-funktionen.
E N D
Statistik IILektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Logistisk regression: 2 binære var. • Setup: To binære variable X og Y. • Statistisk model: • Konsekvens:
Logit-forskelle og Odds-ratio • Logit-forskel • Odds-ratio
Likelihood-funktionen • Definer Likelihood funktionenL( a,b ; data). • L(a,b; data)siger, hvor ”troelig” (likely) data under vores model for givne a ogb.
Estimation • Lad og betegne estimaterne af de sande, men ukendte parametre a og b. • Parametrene a og b estimeres ved maximum-likelihood metoden: • Vi vælger og så L ( ,; data)er størst mulig (ordnes af SPSS). • Vi kalder og maximum-likelihood (ML) estimater.
Estimaternes fordeling. • Antag b er den sande værdi og er et ML estimat. • For hver data-indsamling får vi lidt forskellige estimater af b pga. af tilfældig variation i data. • Hvis vi har indsamlet data nok, så gælder der • Dvs. i gennemsnit estimerer korrekt (central). • Standard fejlen SE(b) afhænger af mængden af data.
Konfidensinterval for b • Da gælder følgende:
Konfidensinterval for b • Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. • Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. • Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. • Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.
Konfidens-interval for logit-forskel • Et 95% konfidens-interval for logit-forskel β: • Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). • Et 95% konfidens-interval for odds-ratio:
Signifikanstest • Hypoteser • H0: β = 0 (uafhængighed) • H1: β= 0 (afhængighed) • Teststørrelse: (Wald teststør.) • Under H0 gælder: • Store værdier af Z2 er ufordelagtige for H0.
Hypotesetest og Konfidensintervaller • Betragt følgende hypoteser • H0: b= K H1: b≠ K • Lad [a,b] være et 95% konfidens-interval for b. • Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. • Hvis Kligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.
SPSS Output Model: Model: SE(b) Z2 b p-værdi a 95% konf-int. for exp(b) eb
Kategorisk forklarende variabel • Eksempel: • Sammenhængen ml. læsehastighed og selvvurdering?
Uafhængighed • I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: • Odds(God = Ja|Hastighed = Hurtig) • Odds(God = Ja|Hastighed = Langsom) • Odds(God = Ja|Hastighed = Usikker) • Vi sammenligner par af Odds vha et Odds-ratio. • Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!
Sammenligning af mange Odds • Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. • Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. • På den måde har vi kun (k-1) Odds-ratios. • Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. • Tilsvarende er alle logit-forskelle = 0.
Logistisk Regressionsmodel • Model: Logit(Ja|Hastighed) =a +bHastighed • Logit(Ja|Hurtig) =a +bHurtig • Logit(Ja|Langsom) =a +bLangsom • Logit(Ja|Usikker) =a +bUsikker • Overparametriseret! (hvorfor?) • For reference-kategorien sæt bHurtig= 0.
Logit-forskelle • Logit(Ja|Langsom) - Logit(Ja|Hurtig) = (a +bLangsom) - a =bLangsom • Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a +bUsikker) - a =bUsikker • Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.
Hypotesetest • Uinteressant hypotse (hvorfor?) • H0: bLangsom = 0 • H1: bLangsom ≠ 0 • Interessant hypotese (hvorfor?) • H0: bLangsom = bUsikker = 0 • H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 • Teststørrelse: Wald ~ c2(df ) • df = antal parametre ivolveret i H0.
SPSS • ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.
SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker= 0 bLansom bUsikker H0: bUsikker= 0
Alternativ: Dummy-variable • For hver kategori introducer en binær variabel: • xHurtigxLangsomogxUsikker. • xHurtig = 0 altid • xLangsom = 1 hvis Hastighed = Langsom • xLangsom = 0 hvis Hastighed ≠ Langsom • xUsikker = 1 hvis Hastighed = Usikker • xUsikker = 0 hvis Hastighed ≠ Usikker
Dummy-variable • Model: • Eksempel:
Logistisk Regression: Generel Form • Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:
Skala forklarende variabel • Eksempel: • Afhængig variabel: Er du en god læser (Ja/Nej) • Forklarende variable: Antal rigtige i test (0…20) • Plot: Andel Ja’er for hver score.
Logistisk Regressionsmodel • Model: Logit(Ja|Score=x) = a + bx • Sandsynlighed: • Plot: Logit(Ja|Score=x)
Fortolkning • Logit-forskel: • Så hver gang score stiger med en stiger logit med b. • Odds-ratio: • Så hver gang score stiger med en ændres Odds’et med en faktor eb.
Hypotesetest Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. • H0: b = 0 • H1: b ≠ 0 • Teststørrelse: • Hvis vi afviser H0 siger vi at b er signifikant. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.
SPSS Output • Estimerede model: • Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.
Modelkontrol: Ikke logit-lineær • Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 • Hvis b2ikke er signifikant, så er en logit-lineær model passende.
Modelkontrol: Hosmer-Lemeshows c2-test • Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. • Ox = observerede antal personer med score x, der svarer ”Ja”. • Nx = antal personer med score x. • Ex = forventede antal personer med score x, der svarer ”Ja”.
Modelkontrol: Hosmer-Lemeshows c2-test • Teststørrelse: • Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” • Hvis c2 er for stor tror vi ikke på modellen. • Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.
SPSS Output • Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. • Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.
Multipel Logistisk Regression • Ide: Mere end en forklarende variabel. • Model: • Reference-kategorier: Dreng og Hurtig • Dvs: bDreng= 0 og bHurtig = 0 • Logit(Ja|Dreng,Hurtig) = a+bDreng+bHurtig = a+0+0 = a • Logit(Ja|Pige,Langsom) = a+bPige+bLangsom
Logit-forskelle • Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom. • Dvs.bLangsom beskriver logit-forskellen mellem hurtig og langsom læseruansetkønnet. • Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. • Dvs.bPige beskriver logit-forskellen mellem piger og drenge uansetlæsehastigheden.
Interaktion / Vekselvirkning • Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? • Indfør interaktionsledbKøn,Hastighed. • Model: Logit(Ja|Køn,Hastighed) = a + bKøn +bHastighed + bKøn,Hastighed
Interaktion / Vekselvirkning • Parametere der refererer til en eller flere reference- kategorier sættes lig nul: • bDreng,Hurtig = 0 • bDreng, Langsom = 0 • bDreng, Usikker = 0 • bPige, Hurtig = 0 • bPige, Langsom≠ 0 • bPige, Usikker≠ 0
Logit Tabel • Tabel over Logit(Ja|Køn, Hastighed) • Bemærk: Hver celle har et individuelt logit. • Vi kalder denne model den mættede model.
Logit-forskelle • logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige • logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. • logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker • logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.
Hypotse • H0: bPige,Langsom = bPige,Usikker = 0 • Dvs. der er ingen interaktion mellem Køn og Hastighed. • H1: bPige,Langsom ≠0og/ellerbPige,Usikker≠0 • Dvs. der er interaktion mellem Køn og Hastighed.