1 / 41

Statistik II Lektion 3

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable. Logistisk regression: 2 binære var. Setup: To binære variable X og Y . Statistisk model: Konsekvens:. Logit-forskelle og Odds-ratio. Logit-forskel Odds-ratio. Likelihood-funktionen.

marly
Download Presentation

Statistik II Lektion 3

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik IILektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

  2. Logistisk regression: 2 binære var. • Setup: To binære variable X og Y. • Statistisk model: • Konsekvens:

  3. Logit-forskelle og Odds-ratio • Logit-forskel • Odds-ratio

  4. Likelihood-funktionen • Definer Likelihood funktionenL( a,b ; data). • L(a,b; data)siger, hvor ”troelig” (likely) data under vores model for givne a ogb.

  5. Estimation • Lad og betegne estimaterne af de sande, men ukendte parametre a og b. • Parametrene a og b estimeres ved maximum-likelihood metoden: • Vi vælger og så L ( ,; data)er størst mulig (ordnes af SPSS). • Vi kalder og maximum-likelihood (ML) estimater.

  6. Estimaternes fordeling. • Antag b er den sande værdi og er et ML estimat. • For hver data-indsamling får vi lidt forskellige estimater af b pga. af tilfældig variation i data. • Hvis vi har indsamlet data nok, så gælder der • Dvs. i gennemsnit estimerer korrekt (central). • Standard fejlen SE(b) afhænger af mængden af data.

  7. Konfidensinterval for b • Da gælder følgende:

  8. Konfidensinterval for b • Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. • Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. • Når data er indsamlet og konfidensintervallet er udregnet, så inderholder konfidensintervallet enten b ellers så gør det ikke. • Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

  9. Konfidens-interval for logit-forskel • Et 95% konfidens-interval for logit-forskel β: • Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). • Et 95% konfidens-interval for odds-ratio:

  10. Signifikanstest • Hypoteser • H0: β = 0 (uafhængighed) • H1: β= 0 (afhængighed) • Teststørrelse: (Wald teststør.) • Under H0 gælder: • Store værdier af Z2 er ufordelagtige for H0.

  11. Hypotesetest og Konfidensintervaller • Betragt følgende hypoteser • H0: b= K H1: b≠ K • Lad [a,b] være et 95% konfidens-interval for b. • Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. • Hvis Kligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

  12. SPSS Output Model: Model: SE(b) Z2 b p-værdi a 95% konf-int. for exp(b) eb

  13. Kategorisk forklarende variabel • Eksempel: • Sammenhængen ml. læsehastighed og selvvurdering?

  14. Uafhængighed • I den ideelle verden: Hvis der er uafhængighed skal de tre mulige Odds i tabellen være ens: • Odds(God = Ja|Hastighed = Hurtig) • Odds(God = Ja|Hastighed = Langsom) • Odds(God = Ja|Hastighed = Usikker) • Vi sammenligner par af Odds vha et Odds-ratio. • Her er der k∙(k-1) = 3∙2=6 mulige Odds-ratios!

  15. Sammenligning af mange Odds • Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. • Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. • På den måde har vi kun (k-1) Odds-ratios. • Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. • Tilsvarende er alle logit-forskelle = 0.

  16. Logistisk Regressionsmodel • Model: Logit(Ja|Hastighed) =a +bHastighed • Logit(Ja|Hurtig) =a +bHurtig • Logit(Ja|Langsom) =a +bLangsom • Logit(Ja|Usikker) =a +bUsikker • Overparametriseret! (hvorfor?) • For reference-kategorien sæt bHurtig= 0.

  17. Logit-forskelle • Logit(Ja|Langsom) - Logit(Ja|Hurtig) = (a +bLangsom) - a =bLangsom • Logit(Ja|Usikker) - Logit(Ja|Hurtig) = (a +bUsikker) - a =bUsikker • Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.

  18. Hypotesetest • Uinteressant hypotse (hvorfor?) • H0: bLangsom = 0 • H1: bLangsom ≠ 0 • Interessant hypotese (hvorfor?) • H0: bLangsom = bUsikker = 0 • H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 • Teststørrelse: Wald ~ c2(df ) • df = antal parametre ivolveret i H0.

  19. SPSS • ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien.

  20. SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker= 0 bLansom bUsikker H0: bUsikker= 0

  21. Alternativ: Dummy-variable • For hver kategori introducer en binær variabel: • xHurtigxLangsomogxUsikker. • xHurtig = 0 altid • xLangsom = 1 hvis Hastighed = Langsom • xLangsom = 0 hvis Hastighed ≠ Langsom • xUsikker = 1 hvis Hastighed = Usikker • xUsikker = 0 hvis Hastighed ≠ Usikker

  22. Dummy-variable: Nu Som Tabel

  23. Dummy-variable • Model: • Eksempel:

  24. Logistisk Regression: Generel Form • Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

  25. Skala forklarende variabel • Eksempel: • Afhængig variabel: Er du en god læser (Ja/Nej) • Forklarende variable: Antal rigtige i test (0…20) • Plot: Andel Ja’er for hver score.

  26. Logistisk Regressionsmodel • Model: Logit(Ja|Score=x) = a + bx • Sandsynlighed: • Plot: Logit(Ja|Score=x)

  27. Logistiske funktion

  28. Fortolkning • Logit-forskel: • Så hver gang score stiger med en stiger logit med b. • Odds-ratio: • Så hver gang score stiger med en ændres Odds’et med en faktor eb.

  29. Hypotesetest Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. • H0: b = 0 • H1: b ≠ 0 • Teststørrelse: • Hvis vi afviser H0 siger vi at b er signifikant. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

  30. SPSS Output • Estimerede model: • Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.

  31. Modelkontrol: Ikke logit-lineær • Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) = a + b1x + b2x2 • Hvis b2ikke er signifikant, så er en logit-lineær model passende.

  32. Modelkontrol: Hosmer-Lemeshows c2-test • Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. • Ox = observerede antal personer med score x, der svarer ”Ja”. • Nx = antal personer med score x. • Ex = forventede antal personer med score x, der svarer ”Ja”.

  33. Modelkontrol: Hosmer-Lemeshows c2-test • Teststørrelse: • Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” • Hvis c2 er for stor tror vi ikke på modellen. • Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

  34. SPSS Output • Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. • Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

  35. Multipel Logistisk Regression • Ide: Mere end en forklarende variabel. • Model: • Reference-kategorier: Dreng og Hurtig • Dvs: bDreng= 0 og bHurtig = 0 • Logit(Ja|Dreng,Hurtig) = a+bDreng+bHurtig = a+0+0 = a • Logit(Ja|Pige,Langsom) = a+bPige+bLangsom

  36. Logit-forskelle • Logit(Ja|Køn,Langsom) - Logit(Ja|Dreng,Hurtig) = (a+bKøn+bLangsom) - (a+bKøn+bHurtig) = bLangsom. • Dvs.bLangsom beskriver logit-forskellen mellem hurtig og langsom læseruansetkønnet. • Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) - (a+bDreng+bHastighed) = bPige. • Dvs.bPige beskriver logit-forskellen mellem piger og drenge uansetlæsehastigheden.

  37. Interaktion / Vekselvirkning • Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? • Indfør interaktionsledbKøn,Hastighed. • Model: Logit(Ja|Køn,Hastighed) = a + bKøn +bHastighed + bKøn,Hastighed

  38. Interaktion / Vekselvirkning • Parametere der refererer til en eller flere reference- kategorier sættes lig nul: • bDreng,Hurtig = 0 • bDreng, Langsom = 0 • bDreng, Usikker = 0 • bPige, Hurtig = 0 • bPige, Langsom≠ 0 • bPige, Usikker≠ 0

  39. Logit Tabel • Tabel over Logit(Ja|Køn, Hastighed) • Bemærk: Hver celle har et individuelt logit. • Vi kalder denne model den mættede model.

  40. Logit-forskelle • logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige • logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. • logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker • logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker + bPige,Usikker. • Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.

  41. Hypotse • H0: bPige,Langsom = bPige,Usikker = 0 • Dvs. der er ingen interaktion mellem Køn og Hastighed. • H1: bPige,Langsom ≠0og/ellerbPige,Usikker≠0 • Dvs. der er interaktion mellem Køn og Hastighed.

More Related