1 / 42

Statikstik II 3. Lektion

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller. Definitioner: Repetition. Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives:

maisie
Download Presentation

Statikstik II 3. Lektion

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statikstik II3. Lektion Multipel Logistisk regression Generelle Lineære Modeller

  2. Definitioner: Repetition • Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: • Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: • Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation) • Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

  3. Hvis ingen afhængighed… • Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel

  4. Kategorisk forklarende variabel • Eksempel: Sammenhængen ml. læsehastighed og selvvurdering?

  5. Logistisk Regressionsmodel • Model: Logit(Ja|Hastighed) =a +bHastighed • Logit(Ja|Hurtig) =a+bHurtig • Logit(Ja|Langsom) =a+bLangsom • Logit(Ja|Usikker) =a+bUsikker • For reference-kategorien sæt bHurtig= 0.

  6. Logit-forskelle • Logit(Ja|Langsom) - Logit(Ja|Hurtig) = (a +bLangsom) - a =bLangsom • Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a +bUsikker) - a =bUsikker • Dvs. bLangsom og bUsikkerer de to logit-forskelle af interesse. • Hypotesetest • H0: bLangsom = bUsikker = 0 • H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0

  7. Alternativ: Dummy-variable • For hver kategori introducer en binær variabel: • xHurtig, xLangsomogxUsikker. • xHurtig = 0altid nul (reference-kategori) • xLangsom = 1hvis Hastighed = Langsom • xLangsom = 0hvis Hastighed ≠ Langsom • xUsikker = 1hvis Hastighed = Usikker • xUsikker = 0hvis Hastighed ≠ Usikker

  8. Dummy-variable: Nu Som Tabel

  9. Dummy-variable • Model: • Eksempel: • Bemærk struktur:

  10. Logistisk Regression: Generel Form • Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: • Og som sandsynlighed:

  11. Skala forklarende variabel • Eksempel: • Afhængig variabel: Er du en god læser (Ja/Nej) • Forklarende variable: Antal rigtige i test (0…20) • Plot: Andel Ja’er for hver score.

  12. Logistisk Regressionsmodel • Model: Logit(Ja|Score = x) = a + bx • Sandsynlighed: • Plot: Logit(Ja|Score=x)

  13. Logistiske funktion

  14. Fortolkning af b • Logit-forskel: • Så hver gang ’score’ stiger med 1 stiger logit med b. • Odds-ratio: • Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

  15. Hypotesetest Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. • H0: b = 0 • H1: b ≠ 0 • Teststørrelse: • Jo større ”Wald” jo mindre tror vi på H0. • Hvor langt ude ”Wald” er måles af p-værdien. • Hvis vi afviser H0 siger vi at b er signifikant. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

  16. SPSS Output • Estimerede model: • Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1. Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger. • Sandsynligheder

  17. Modelkontrol: Ikke logit-lineær • Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 • Hvis b2ikke er signifikant, så er en logit-lineær model passende.

  18. Modelkontrol: Hosmer-Lemeshows c2-test • Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. • Ox = observerede antal personer med score x, der svarer ”Ja”. • Nx = antal personer med score x. • Ex = forventede antal personer med score x, der svarer ”Ja”.

  19. Modelkontrol: Hosmer-Lemeshows c2-test • Teststørrelse: • Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” • Hvis c2 er for stor tror vi ikke på modellen. • Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

  20. SPSS Output • Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H0. • Dvs. vi kan ikke afvise at modellen er korrekt. • Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.

  21. Multipel Logistisk Regression • Ide: Mere end en forklarende variabel. • Model: • Reference-kategorier: Dreng og Hurtig • Dvs: bDreng= 0 og bHurtig = 0 • Eksempler Logit(Ja|Dreng,Hurtig) = a +bDreng+bHurtig= a + 0 + 0 = a Logit(Ja|Pige,Langsom) = a +bPige+bLangsom

  22. Logit-forskelle • Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed: Logit(Ja|Køn,Langsom) -Logit(Ja|Køn,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom • Dvs.bLangsombeskriver logit-forskellen mellem hurtig og langsom læseruansetkønnet.

  23. Logit-forskelle • Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed: Logit(Ja|Pige,Hastighed) -Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. • Dvs.bPigebeskriver logit-forskellen mellem piger og drenge uansetlæsehastigheden.

  24. Interaktion / Vekselvirkning • Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? • Indfør interaktionsledbKøn,Hastighed. • Model: Logit(Ja|Køn,Hastighed) = a + bKøn+bHastighed+bKøn,Hastighed

  25. Interaktion / Vekselvirkning • Parametere der refererer til en eller flere reference- kategorier sættes lig nul: • bDreng,Hurtig= 0 • bDreng, Langsom= 0 • bDreng, Usikker = 0 • bPige, Hurtig = 0 • bPige, Langsom≠ 0 • bPige, Usikker≠ 0

  26. Logit Tabel • Tabel over Logit(Ja|Køn, Hastighed) • Bemærk: Hver celle har et individuelt logit. • Vi kalder denne model den mættede model.

  27. Logit-forskelle • logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige • logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. • logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker • logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.

  28. Hypotse • H0: bPige,Langsom= bPige,Usikker = 0 • Dvs. der er ingen interaktion mellem Køn og Hastighed. • H1: bPige,Langsom≠ 0og/eller bPige,Usikker≠ 0 • Dvs. der er interaktion mellem Køn og Hastighed.

  29. SPSS • SPSS: Analyze → Regression → BinaryLogstic • Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på ’>a*b>’ • Husk at angive kategoriske variable under ’Categorical’ *Klik*

  30. SPSS: Output • Vores model er for Logit for ’Ja’ • ’Hurtig’ og ’Dreng’ er reference-kategorierne • Det interessante input står efter ’Block 1: Method = Enter’ • H-L Test: p-værdi = 1, da modellen er mættet. • Hverken ’køn’ eller ’hastighed*køn’ er signifikante.

  31. Generel Lineær Model • Y afhængig skala variabel • X1,…,Xk forklarende variable, skala eller binære • Model: Middelværdien af Y givet X • Mere præcist: i’te observation ud af n er givet ved • xj,i er j’te forklarende variabel for i’te observation. • e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) IID

  32. Simpel lineær regression • GLM med én skala forklarende variabel (k=1) Y E[Y|X] = a + β1X • Modellen er { Yi β1 εi 1 • Modellen siger: • E(Y|X) = a + b1X • V(Y|X) = σ2 • Y|X ~ N(a + β1X, σ2) a0 X Xi

  33. x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1

  34. Estimation • Model: • yi = a + b1xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af aogb1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog b1?

  35. Residual led • er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

  36. Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).

  37. Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1

  38. Test af hældning (β1) • Test for om hældningen, β1er forskellig fra nul: • Teststørrelse: • Numerisk store værdier af t er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

  39. Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi

  40. Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0ingen lineær sammenhæng H1: b1  0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X

  41. SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

  42. Eksempel • Y : Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot → • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante!

More Related