1 / 32

Statistik II 4. Lektion

Statistik II 4. Lektion. Logistisk regression. Logistisk regression: Motivation. Generelt setup : Dikotom (binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg .) Eksempel: Afhængig: Er du en god læser? (Ja/Nej)

otto
Download Presentation

Statistik II 4. Lektion

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik II4. Lektion Logistisk regression

  2. Logistisk regression: Motivation • Generelt setup: • Dikotom(binær) afhængig variabel • Kontinuerte og kategoriske forklarende variable (som i lineær reg.) • Eksempel: • Afhængig: Er du en god læser? (Ja/Nej) • Forklarende: Antal point i test (0..20) • Spørgsmål: • Hvordan afhænger sandsynligheden for ’Ja’ af ’Point’?

  3. How not to do it… • Plot af andel ja’er mod antal point. • Hvorfor ikke bare gøre lidt som vi plejer? • Model: • Dåååårlig ide!!!

  4. Why not to do it… • Plot af andel ja’er mod antal point. • Linjen er fundet ved mindste kvadraters metode • Listen over problemer er lang….

  5. Sandsynlighed og Odds • Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives • Sandsynligheden for at Svar = Nej • Odds’etfor at Svar = Ja er • Fortolkning: Odds(Ja) = 4 betyder 4 gange så mange ja’er som nej’er.

  6. Logit • Logitfor Svar = Ja : • Bemærk: • Når P(Ja) stiger, så stiger Logit(Ja) – og omvendt. • Logit kan tage alle værdier på den reelle akse.

  7. Hen til Logit og tilbage igen… • Antag Y er en binær variabel, dvs. Y=0 eller Y=1. • Antag hvad er da Odds’et og sandsynligheden? • Vi har dvs.: • Vi har omskrives til • Bemærk: Når logit vokser, vokser ssh’en.

  8. Odds og odds-ratio • De to betingede odds: • Odds-ratio: • Hvis X og Y uafhængige har vi og

  9. Logit og logit-forskelle • De to betingede logits: • Logit-forskel: • Hvis X og Y uafhængige har vi og

  10. Logistisk regression • Antag at Y er en binær afhængig variabel og X er en kontinuert forklarende variabel. • Da er en logistisk regressionsmodel givet ved • Hvad betyder det sandsynligheden? • Udregninger som før giver

  11. Logistiske funktion

  12. Estimation • Lad og betegne estimaterne af de sande, men ukendte parametre a og b. • Parametrene a og b estimeres ved maximum-likelihood metoden: • Vi vælger og som de værdier af a og b, der gør data mest ”sandsynlig” (likely). • Vi kalder og maximum-likelihood (ML) estimater.

  13. SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). • Estimerede model: • Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare ja, når antal point stiger.

  14. Logit og Sandsynlighed

  15. Estimaternes fordeling. • Antag b er den sande værdi og er et ML estimat. • Hvis vi har indsamlet data nok, så er stikprøveforselingen af ca. normalfordelt: • Dvs. i gennemsnit estimerer korrekt (central). • Standard fejlen SE( )afhænger af mængden af data. Normal-fordeling med middelværdi b og varians (SE( ))2

  16. Konfidensinterval for b • Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. • Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. • Når data er indsamlet og konfidensintervalleter udregnet, så inderholderkonfidensintervallet enten b ellers så gør det ikke. • Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.

  17. Konfidens-interval for logit-forskel • Et 95% konfidens-interval for logit-forskel β: • Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). • Et 95% konfidens-interval for odds-ratio:

  18. SPSS Output Z2 p-værdi SE(b) b • Estimerede model: • 95% konfidensintervalletfor ber: [1.159 ; 1.260 ] a 95% konf-int. for exp(b) eb

  19. Signifikanstest • Hypoteser • H0: β = 0 (uafhængighed) • H1: β= 0 (afhængighed) • Teststørrelse: (Wald teststør.) • Under H0 gælder: • Store værdier af Z2 er ufordelagtige for H0.

  20. Hypotesetest og Konfidensintervaller • Betragt følgende hypoteser • H0: b= K H1: b≠ K • Lad [a,b] være et 95% konfidens-interval for b. • Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. • Hvis Kligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.

  21. SPSS Output • Estimerede model: • Fortolkning: Da p-værdien er mindre end 0.0005 kan vi afvise hypotesen om at b = 0. Dvs. at antal point har en effekt på selvvurderingen.

  22. Fortolkning: Odds • Odds: • Dvs. • Dvs. en stigning på et point giver et Odds-ratio: • Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

  23. SPSS Output • Estimerede model: • Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1. • Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja’er for hvert Nej.

  24. Modelkontrol: Hosmer-Lemeshows c2-test • Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. • Ox = observerede antal personer med score x, der svarer ”Ja”. • Nx = antal personer med score x. • Ex = forventede antal personer med score x, der svarer ”Ja”.

  25. Modelkontrol: Hosmer-Lemeshows c2-test • Teststørrelse: • Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” • Hvis c2 er for stor tror vi ikke på modellen. • Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

  26. SPSS Output • Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. • Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.

  27. Logistisk Regression: Generel Form • Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:

  28. Kategorisk forklarende variabel • Eksempel: • Sammenhængen ml. læsehastighed og selvvurdering?

  29. Sammenligning af mange Odds • Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. • Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. • På den måde har vi kun (k-1) Odds-ratios. • Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. • Tilsvarende er alle logit-forskelle = 0.

  30. Hypotesetest • Model: Logit(Ja|Hastighed) =a +bHastighed • Uinteressant hypotse(hvorfor?) • H0: bLangsom = 0 • H1: bLangsom ≠ 0 • Interessant hypotese (hvorfor?) • H0: bLangsom = bUsikker = 0 • H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 • Teststørrelse:Wald ~ c2(df) • df = antal parametre involveret i H0.

  31. SPSS • ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien. *Klik*

  32. SPSS Output To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker= 0 bLansom bUsikker H0: bUsikker= 0 Konklusion: Vi kan afvise H0, dvs. der er en effekt af hastighed på selvvurdering.

More Related