Statikstik II 3. Lektion

Statikstik II3. Lektion Multipel Logistisk regression Generelle Lineære Modeller

Definitioner: Repetition • Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: • Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: • Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation) • Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

Hvis ingen afhængighed… • Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel

Kategorisk forklarende variabel • Eksempel: Sammenhængen ml. læsehastighed og selvvurdering?

Logistisk Regressionsmodel • Model: Logit(Ja|Hastighed) =a +bHastighed • Logit(Ja|Hurtig) =a+bHurtig • Logit(Ja|Langsom) =a+bLangsom • Logit(Ja|Usikker) =a+bUsikker • For reference-kategorien sæt bHurtig= 0.

Logit-forskelle • Logit(Ja|Langsom) - Logit(Ja|Hurtig) = (a +bLangsom) - a =bLangsom • Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a +bUsikker) - a =bUsikker • Dvs. bLangsom og bUsikkerer de to logit-forskelle af interesse. • Hypotesetest • H0: bLangsom = bUsikker = 0 • H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0

Alternativ: Dummy-variable • For hver kategori introducer en binær variabel: • xHurtig, xLangsomogxUsikker. • xHurtig = 0altid nul (reference-kategori) • xLangsom = 1hvis Hastighed = Langsom • xLangsom = 0hvis Hastighed ≠ Langsom • xUsikker = 1hvis Hastighed = Usikker • xUsikker = 0hvis Hastighed ≠ Usikker

Dummy-variable: Nu Som Tabel

Dummy-variable • Model: • Eksempel: • Bemærk struktur:

Logistisk Regression: Generel Form • Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: • Og som sandsynlighed:

Skala forklarende variabel • Eksempel: • Afhængig variabel: Er du en god læser (Ja/Nej) • Forklarende variable: Antal rigtige i test (0…20) • Plot: Andel Ja’er for hver score.

Logistisk Regressionsmodel • Model: Logit(Ja|Score = x) = a + bx • Sandsynlighed: • Plot: Logit(Ja|Score=x)

Logistiske funktion

Fortolkning af b • Logit-forskel: • Så hver gang ’score’ stiger med 1 stiger logit med b. • Odds-ratio: • Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

Hypotesetest Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. • H0: b = 0 • H1: b ≠ 0 • Teststørrelse: • Jo større ”Wald” jo mindre tror vi på H0. • Hvor langt ude ”Wald” er måles af p-værdien. • Hvis vi afviser H0 siger vi at b er signifikant. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

SPSS Output • Estimerede model: • Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1. Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger. • Sandsynligheder

Modelkontrol: Ikke logit-lineær • Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 • Hvis b2ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows c2-test • Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. • Ox = observerede antal personer med score x, der svarer ”Ja”. • Nx = antal personer med score x. • Ex = forventede antal personer med score x, der svarer ”Ja”.

Modelkontrol: Hosmer-Lemeshows c2-test • Teststørrelse: • Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” • Hvis c2 er for stor tror vi ikke på modellen. • Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output • Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H0. • Dvs. vi kan ikke afvise at modellen er korrekt. • Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.

Multipel Logistisk Regression • Ide: Mere end en forklarende variabel. • Model: • Reference-kategorier: Dreng og Hurtig • Dvs: bDreng= 0 og bHurtig = 0 • Eksempler Logit(Ja|Dreng,Hurtig) = a +bDreng+bHurtig= a + 0 + 0 = a Logit(Ja|Pige,Langsom) = a +bPige+bLangsom

Logit-forskelle • Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed: Logit(Ja|Køn,Langsom) -Logit(Ja|Køn,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom • Dvs.bLangsombeskriver logit-forskellen mellem hurtig og langsom læseruansetkønnet.

Logit-forskelle • Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed: Logit(Ja|Pige,Hastighed) -Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. • Dvs.bPigebeskriver logit-forskellen mellem piger og drenge uansetlæsehastigheden.

Interaktion / Vekselvirkning • Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? • Indfør interaktionsledbKøn,Hastighed. • Model: Logit(Ja|Køn,Hastighed) = a + bKøn+bHastighed+bKøn,Hastighed

Interaktion / Vekselvirkning • Parametere der refererer til en eller flere reference- kategorier sættes lig nul: • bDreng,Hurtig= 0 • bDreng, Langsom= 0 • bDreng, Usikker = 0 • bPige, Hurtig = 0 • bPige, Langsom≠ 0 • bPige, Usikker≠ 0

Logit Tabel • Tabel over Logit(Ja|Køn, Hastighed) • Bemærk: Hver celle har et individuelt logit. • Vi kalder denne model den mættede model.

Logit-forskelle • logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige • logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. • logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker • logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.

Hypotse • H0: bPige,Langsom= bPige,Usikker = 0 • Dvs. der er ingen interaktion mellem Køn og Hastighed. • H1: bPige,Langsom≠ 0og/eller bPige,Usikker≠ 0 • Dvs. der er interaktion mellem Køn og Hastighed.

SPSS • SPSS: Analyze → Regression → BinaryLogstic • Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på ’>a*b>’ • Husk at angive kategoriske variable under ’Categorical’ *Klik*

SPSS: Output • Vores model er for Logit for ’Ja’ • ’Hurtig’ og ’Dreng’ er reference-kategorierne • Det interessante input står efter ’Block 1: Method = Enter’ • H-L Test: p-værdi = 1, da modellen er mættet. • Hverken ’køn’ eller ’hastighed*køn’ er signifikante.

Generel Lineær Model • Y afhængig skala variabel • X1,…,Xk forklarende variable, skala eller binære • Model: Middelværdien af Y givet X • Mere præcist: i’te observation ud af n er givet ved • xj,i er j’te forklarende variabel for i’te observation. • e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) IID

Simpel lineær regression • GLM med én skala forklarende variabel (k=1) Y E[Y|X] = a + β1X • Modellen er { Yi β1 εi 1 • Modellen siger: • E(Y|X) = a + b1X • V(Y|X) = σ2 • Y|X ~ N(a + β1X, σ2) a0 X Xi

x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1

Estimation • Model: • yi = a + b1xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af aogb1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog b1?

Residual led • er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).

Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1

Test af hældning (β1) • Test for om hældningen, β1er forskellig fra nul: • Teststørrelse: • Numerisk store værdier af t er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi

Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0ingen lineær sammenhæng H1: b1  0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X

SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

Eksempel • Y : Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot → • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante!

Statikstik II 3. Lektion

Statikstik II 3. Lektion

Presentation Transcript

Statistik II 5. Lektion

LEKTION 3

Statistik II Lektion 5 Modelkontrol

Statistik Lektion 3

Lektion 3

Statikstik II 4. Lektion

Statistik II 1. Lektion

Statistik Lektion 3

Lektion 3

Lektion 3

Forskningsmetodik HT04 Lektion 3

Lektion 28: Repetition II

spørgsmål til lektion 3

Anvendt Statistik Lektion 3

Statistik II Lektion 3

Statistik II 4. Lektion

Statistik II 3. Lektion

3.Lektion: Identitet

Datornätverk A – lektion 3 MKS B – lektion 3

Lektion 3

Lektion 3

Statistik II 2. Lektion