420 likes | 566 Views
Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller. Definitioner: Repetition. Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives:
E N D
Statikstik II3. Lektion Multipel Logistisk regression Generelle Lineære Modeller
Definitioner: Repetition • Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: • Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: • Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation) • Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)
Hvis ingen afhængighed… • Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel
Kategorisk forklarende variabel • Eksempel: Sammenhængen ml. læsehastighed og selvvurdering?
Logistisk Regressionsmodel • Model: Logit(Ja|Hastighed) =a +bHastighed • Logit(Ja|Hurtig) =a+bHurtig • Logit(Ja|Langsom) =a+bLangsom • Logit(Ja|Usikker) =a+bUsikker • For reference-kategorien sæt bHurtig= 0.
Logit-forskelle • Logit(Ja|Langsom) - Logit(Ja|Hurtig) = (a +bLangsom) - a =bLangsom • Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a +bUsikker) - a =bUsikker • Dvs. bLangsom og bUsikkerer de to logit-forskelle af interesse. • Hypotesetest • H0: bLangsom = bUsikker = 0 • H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0
Alternativ: Dummy-variable • For hver kategori introducer en binær variabel: • xHurtig, xLangsomogxUsikker. • xHurtig = 0altid nul (reference-kategori) • xLangsom = 1hvis Hastighed = Langsom • xLangsom = 0hvis Hastighed ≠ Langsom • xUsikker = 1hvis Hastighed = Usikker • xUsikker = 0hvis Hastighed ≠ Usikker
Dummy-variable • Model: • Eksempel: • Bemærk struktur:
Logistisk Regression: Generel Form • Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: • Og som sandsynlighed:
Skala forklarende variabel • Eksempel: • Afhængig variabel: Er du en god læser (Ja/Nej) • Forklarende variable: Antal rigtige i test (0…20) • Plot: Andel Ja’er for hver score.
Logistisk Regressionsmodel • Model: Logit(Ja|Score = x) = a + bx • Sandsynlighed: • Plot: Logit(Ja|Score=x)
Fortolkning af b • Logit-forskel: • Så hver gang ’score’ stiger med 1 stiger logit med b. • Odds-ratio: • Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.
Hypotesetest Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. • H0: b = 0 • H1: b ≠ 0 • Teststørrelse: • Jo større ”Wald” jo mindre tror vi på H0. • Hvor langt ude ”Wald” er måles af p-værdien. • Hvis vi afviser H0 siger vi at b er signifikant. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.
SPSS Output • Estimerede model: • Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1. Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger. • Sandsynligheder
Modelkontrol: Ikke logit-lineær • Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 • Hvis b2ikke er signifikant, så er en logit-lineær model passende.
Modelkontrol: Hosmer-Lemeshows c2-test • Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. • Ox = observerede antal personer med score x, der svarer ”Ja”. • Nx = antal personer med score x. • Ex = forventede antal personer med score x, der svarer ”Ja”.
Modelkontrol: Hosmer-Lemeshows c2-test • Teststørrelse: • Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” • Hvis c2 er for stor tror vi ikke på modellen. • Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.
SPSS Output • Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H0. • Dvs. vi kan ikke afvise at modellen er korrekt. • Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.
Multipel Logistisk Regression • Ide: Mere end en forklarende variabel. • Model: • Reference-kategorier: Dreng og Hurtig • Dvs: bDreng= 0 og bHurtig = 0 • Eksempler Logit(Ja|Dreng,Hurtig) = a +bDreng+bHurtig= a + 0 + 0 = a Logit(Ja|Pige,Langsom) = a +bPige+bLangsom
Logit-forskelle • Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed: Logit(Ja|Køn,Langsom) -Logit(Ja|Køn,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom • Dvs.bLangsombeskriver logit-forskellen mellem hurtig og langsom læseruansetkønnet.
Logit-forskelle • Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed: Logit(Ja|Pige,Hastighed) -Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. • Dvs.bPigebeskriver logit-forskellen mellem piger og drenge uansetlæsehastigheden.
Interaktion / Vekselvirkning • Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? • Indfør interaktionsledbKøn,Hastighed. • Model: Logit(Ja|Køn,Hastighed) = a + bKøn+bHastighed+bKøn,Hastighed
Interaktion / Vekselvirkning • Parametere der refererer til en eller flere reference- kategorier sættes lig nul: • bDreng,Hurtig= 0 • bDreng, Langsom= 0 • bDreng, Usikker = 0 • bPige, Hurtig = 0 • bPige, Langsom≠ 0 • bPige, Usikker≠ 0
Logit Tabel • Tabel over Logit(Ja|Køn, Hastighed) • Bemærk: Hver celle har et individuelt logit. • Vi kalder denne model den mættede model.
Logit-forskelle • logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige • logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. • logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker • logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.
Hypotse • H0: bPige,Langsom= bPige,Usikker = 0 • Dvs. der er ingen interaktion mellem Køn og Hastighed. • H1: bPige,Langsom≠ 0og/eller bPige,Usikker≠ 0 • Dvs. der er interaktion mellem Køn og Hastighed.
SPSS • SPSS: Analyze → Regression → BinaryLogstic • Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på ’>a*b>’ • Husk at angive kategoriske variable under ’Categorical’ *Klik*
SPSS: Output • Vores model er for Logit for ’Ja’ • ’Hurtig’ og ’Dreng’ er reference-kategorierne • Det interessante input står efter ’Block 1: Method = Enter’ • H-L Test: p-værdi = 1, da modellen er mættet. • Hverken ’køn’ eller ’hastighed*køn’ er signifikante.
Generel Lineær Model • Y afhængig skala variabel • X1,…,Xk forklarende variable, skala eller binære • Model: Middelværdien af Y givet X • Mere præcist: i’te observation ud af n er givet ved • xj,i er j’te forklarende variabel for i’te observation. • e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) IID
Simpel lineær regression • GLM med én skala forklarende variabel (k=1) Y E[Y|X] = a + β1X • Modellen er { Yi β1 εi 1 • Modellen siger: • E(Y|X) = a + b1X • V(Y|X) = σ2 • Y|X ~ N(a + β1X, σ2) a0 X Xi
x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1
Estimation • Model: • yi = a + b1xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af aogb1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog b1?
Residual led • er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi
Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).
Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1
Test af hældning (β1) • Test for om hældningen, β1er forskellig fra nul: • Teststørrelse: • Numerisk store værdier af t er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.
Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi
Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0ingen lineær sammenhæng H1: b1 0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X
SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable
Eksempel • Y : Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot → • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante!