330 likes | 510 Views
Statistik II 4. Lektion. Logistisk regression. Logistisk regression: Motivation. Generelt setup : Dikotom (binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg .) Eksempel: Afhængig: Er du en god læser? (Ja/Nej)
E N D
Statistik II4. Lektion Logistisk regression
Logistisk regression: Motivation • Generelt setup: • Dikotom(binær) afhængig variabel • Kontinuerte og kategoriske forklarende variable (som i lineær reg.) • Eksempel: • Afhængig: Er du en god læser? (Ja/Nej) • Forklarende: Antal point i test (0..20) • Spørgsmål: • Hvordan afhænger sandsynligheden for ’Ja’ af ’Point’?
How not to do it… • Plot af andel ja’er mod antal point. • Hvorfor ikke bare gøre lidt som vi plejer? • Model: • Dåååårlig ide!!!
Why not to do it… • Plot af andel ja’er mod antal point. • Linjen er fundet ved mindste kvadraters metode • Listen over problemer er lang….
Sandsynlighed og Odds • Antag at Svar kan være ’Ja’ og ’Nej’. Sandsynligheden for at Svar = Ja skrives • Sandsynligheden for at Svar = Nej • Odds’etfor at Svar = Ja er • Fortolkning: Odds(Ja) = 4 betyder 4 gange så mange ja’er som nej’er.
Logit • Logitfor Svar = Ja : • Bemærk: • Når P(Ja) stiger, så stiger Logit(Ja) – og omvendt. • Logit kan tage alle værdier på den reelle akse.
Hen til Logit og tilbage igen… • Antag Y er en binær variabel, dvs. Y=0 eller Y=1. • Antag hvad er da Odds’et og sandsynligheden? • Vi har dvs.: • Vi har omskrives til • Bemærk: Når logit vokser, vokser ssh’en.
Odds og odds-ratio • De to betingede odds: • Odds-ratio: • Hvis X og Y uafhængige har vi og
Logit og logit-forskelle • De to betingede logits: • Logit-forskel: • Hvis X og Y uafhængige har vi og
Logistisk regression • Antag at Y er en binær afhængig variabel og X er en kontinuert forklarende variabel. • Da er en logistisk regressionsmodel givet ved • Hvad betyder det sandsynligheden? • Udregninger som før giver
Estimation • Lad og betegne estimaterne af de sande, men ukendte parametre a og b. • Parametrene a og b estimeres ved maximum-likelihood metoden: • Vi vælger og som de værdier af a og b, der gør data mest ”sandsynlig” (likely). • Vi kalder og maximum-likelihood (ML) estimater.
SPSS Output NB! Bemærk hvordan SPSS koder den afhængige variabel. SPSS opskriver modellen som Logit(Y=1|…). I dette tilfælde vil det sige Logit(Ja|…). • Estimerede model: • Fortolkning: Da 0.189>0 stiger sandsynligheden for at svare ja, når antal point stiger.
Estimaternes fordeling. • Antag b er den sande værdi og er et ML estimat. • Hvis vi har indsamlet data nok, så er stikprøveforselingen af ca. normalfordelt: • Dvs. i gennemsnit estimerer korrekt (central). • Standard fejlen SE( )afhænger af mængden af data. Normal-fordeling med middelværdi b og varians (SE( ))2
Konfidensinterval for b • Vi har altså at det sande b er indeholdt i intervallet med 95% sandsynlighed. • Sandsynligheden gælder vel at mærke et endnu ikke udført eksperiment. • Når data er indsamlet og konfidensintervalleter udregnet, så inderholderkonfidensintervallet enten b ellers så gør det ikke. • Derfor hedder det et 95% konfidens-interval og ikke et 95% sandsynligheds-interval.
Konfidens-interval for logit-forskel • Et 95% konfidens-interval for logit-forskel β: • Husk: Logit-forskel = ln(Odds-ratio), dvs. Odds-ratio = exp(logit-forskel). • Et 95% konfidens-interval for odds-ratio:
SPSS Output Z2 p-værdi SE(b) b • Estimerede model: • 95% konfidensintervalletfor ber: [1.159 ; 1.260 ] a 95% konf-int. for exp(b) eb
Signifikanstest • Hypoteser • H0: β = 0 (uafhængighed) • H1: β= 0 (afhængighed) • Teststørrelse: (Wald teststør.) • Under H0 gælder: • Store værdier af Z2 er ufordelagtige for H0.
Hypotesetest og Konfidensintervaller • Betragt følgende hypoteser • H0: b= K H1: b≠ K • Lad [a,b] være et 95% konfidens-interval for b. • Hvis K er udenfor intervallet [a,b], så kan vi afvise H0 på signifikansniveau a = 0.05. • Hvis Kligger i intervallet [a,b], kan vi ikke afvise H0 på signifikansniveau a = 0.05.
SPSS Output • Estimerede model: • Fortolkning: Da p-værdien er mindre end 0.0005 kan vi afvise hypotesen om at b = 0. Dvs. at antal point har en effekt på selvvurderingen.
Fortolkning: Odds • Odds: • Dvs. • Dvs. en stigning på et point giver et Odds-ratio: • Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.
SPSS Output • Estimerede model: • Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1. • Dvs. for hvert ekstra point bliver der 1,208 gange flere Ja’er for hvert Nej.
Modelkontrol: Hosmer-Lemeshows c2-test • Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. • Ox = observerede antal personer med score x, der svarer ”Ja”. • Nx = antal personer med score x. • Ex = forventede antal personer med score x, der svarer ”Ja”.
Modelkontrol: Hosmer-Lemeshows c2-test • Teststørrelse: • Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” • Hvis c2 er for stor tror vi ikke på modellen. • Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.
SPSS Output • Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8. • Da p-værdien > 0.05 kan vi ikke afvise at modellen er passende.
Logistisk Regression: Generel Form • Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form:
Kategorisk forklarende variabel • Eksempel: • Sammenhængen ml. læsehastighed og selvvurdering?
Sammenligning af mange Odds • Vi vælger en reference-kategori, fx. Læsehastighed = Hurtig. • Vi sammenligner nu Odds for hver kategori med Odds for reference-kategorien, vha. et Odds-ratio. • På den måde har vi kun (k-1) Odds-ratios. • Uafhængighed i den ideelle verden: Alle Odds er ens og dermed er alle (k-1) Odds-ratios 1. • Tilsvarende er alle logit-forskelle = 0.
Hypotesetest • Model: Logit(Ja|Hastighed) =a +bHastighed • Uinteressant hypotse(hvorfor?) • H0: bLangsom = 0 • H1: bLangsom ≠ 0 • Interessant hypotese (hvorfor?) • H0: bLangsom = bUsikker = 0 • H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0 • Teststørrelse:Wald ~ c2(df) • df = antal parametre involveret i H0.
SPSS • ”Fortæl” SPSS hvilke forklarende variable der er kategoriske og hvilken kategori er reference-kategorien. *Klik*
SPSS Output To parametre i H0: bLansom og bUsikker. H0: bLansom = bUsikker= 0 bLansom bUsikker H0: bUsikker= 0 Konklusion: Vi kan afvise H0, dvs. der er en effekt af hastighed på selvvurdering.