400 likes | 543 Views
Statistik II 1. Lektion. Analyse af kontingenstabeller. Kursusbeskrivelse. Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS
E N D
Statistik II1. Lektion Analyse af kontingenstabeller
Kursusbeskrivelse • Omfang • 5 kursusgange (forelæsning + opgaveregning) • 5 kursusgange (mini-projekt) • Emner • Analyse af kontingenstabeller • Logistisk regression • Generelle lineære modeller • Log-lineære modeller • Software: Masser af SPSS • Eksamen • Mundtlig, individuel, med udgangspunkt i mini-projekt • Dato: Det skal vi have aftalt.
Kontingenstabeller • Typisk: Spørgeskemaundersøgelse (Survey) • Svartyperne er • Kategoriske – der er et antal svarmuligheder • Nominel kategorisk, dvs. ordnede kategorier • Fx. Indkomstgruppe: Lav, Mellem eller Høj • Ordinale kategoriske, dvs. kategorier uden ordning. • Fx. Favoritfarve: Rød, Grøn, Blå eller Anden. • Kontingenstabel • Tabel over antal observationer, der falder i forskellige kombinationer af kategorier.
Dikotome variable • Dikotom variabel: Kategorisk variabel med kun to kategorier. • Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. • Hvis de to kategori er hhv 0 og 1kaldes variablen binær. • I SPSS omkoder dikotome variable til binære – hold øje med hvad omkodes til hvad. • I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.
Eksempel • Sammenhængen mellem arbejdsløshed og eksponering for vold: • Er der en sammenhæng?
Sammenligne forhold • Antagelser: • Data repræsentativ for befolkningen • Der er en kausalitet • Ide: Sammenlign forholder mellem Nej’er og Ja’er blandt hhv. folk i og uden arbejde: • I arbejde : 2483/80 = 31.03 • Uden arbejde: 386/22 = 17.54 • Delkonklusion: De ser ret forskellige ud!
Forhold mellem forhold… • Næste trin: Forholdet af forholdene: • Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.
Krydsprodukt-forholdet • En 2x2 tabel: • Krydsproduktforhold: • Forholdet mellem række-forhold: • Forholdet mellem søjle-forhold: Det samme!
Samme sammenhæng Samme rækkeforhold • Sammenhæng mellem A og B som mellem X og Y • Sammenhæng mellem A og B som mellem U og V • Krydsprodukter: Samme søjleforhold
Mere krydsprodukt Forskellige rækkeforhold Forskellige søjleforhold Begge krydsprodukter = 3! Konstruer ny tabel Samme rækkeforhold Samme søjleforhold
Krydsproduktet og odds • Lad X og Y være binære variabel • Da er odds’et for X: • Betinget odds: Odds’et for X givet Y=1: • Krydsproduktet er det samme om Odds-ratio:
g-koeffcienten • Definition: • Relation til k: • ... og omvendt: • Der er en en-til-en korrespondance mellem g og k. Dvs. g og kindeholder samme information om data.
Fortolkning af g • g = 0 hvis X og Y er uafhængige. • g = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data. • g = -1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data. • Minder om ”almindelig” korrelation.
Konfidensinterval for g • Et 95% konfidensinterval for sande g : Hvor • I begge formler er g estimeret fra data.
Konfidensinterval for g • Eksemplet: • 95% konfidensinterval 0 0.055 0.501
Signifikanstest og tabeller • Mål: Afgøre om der er sammenhæng mellem to kategoriske variable • Ide: Find de forventede antal, under antagelse af, at der ingen sammenhæng er. • Sammenlign de faktisk observerede antal med de forventede. • Beslutning: Hvis forskellen mellem forventede og observerede antal er for stor, tror vi på, at der er en sammenhæng.
Forventet vs Observeret • Flyskræk igen! • Hvilke antal forventes, hvis der ingen sammenhæng var mellem arbejdsløshed og vold/trusler?
Mål for forskellen mellem observeret og forventet antal • Lad Oiog Eivære hhv. observerede og forventede antal i den i’te celle i tabellen. • Forskellen mellem Oi’erne og Ei’erne opsummeres ved • Hvis Χ2=0 passer observeret og forventet perfekt sammen. • Jo større Χ2er, jo dårligere passer de sammen… • …og jo mindre tror vi på uafhængighed.
r x c Kontingenstabeller • Kontingstabellen består af r rækker og c kolonner. • Første kategoriske variabel (Helbred)har c kategorier. • Anden kategoriske variabel (Jobtype) har r kategorier. Celle (3,4) • Det forventede antal observationer i celle (i,j) er Eij = n (Ri / n )( Cj / n ) = RiCj/ n
Signifikanstest generelt • Opstil to hypoteser: • Nul-hypotese (H0): Påstand om data, der er beskrevet ved en (simpel) statistisk model. • Alternativ-hypotese (H1): Det modsatte af nul-hypotesen. • Princip: Vi tror på H0 hypotesen indtil data giver os grund til andet. • ”Enhver er uskyldig indtil hans skyld er bevist udover enhver rimelig tvivl”.
Signifikanstest i kontingenstabeller. • Antag at X og Y er kategoriske stokastiske variable. • Vi opstiller to hypoteser: • H0: Uafhængighed mellem X og Y. • H1: Afhængighed mellem X og Y.
Teststørrelse generelt • Teststørrelse: Talstørrelse, der beskriver hvordan data passer til nul-hypotesen. • Husk: Afgør hvilke værdier af teststørrelsen, der er ufordelagtige for H0. • I kontingenstabel • Teststørrelse: • Store værdier af Χ2 er ufordelagtige for H0. • Bemærk: Alle Ei’er skal helst være ≥ 5.
p-værdi • P-værdi: Hvis H0 er sand, da er p-værdien sandsynligheden for at observere en mere ufordelagtig teststørrelse ”næste gang”. • Fortolkning: Hvis p-værdien er meget lille har vi observeret data, der er meget ufordelagtig for H0. • Med andre ord: Jo mindre p-værdi, jo mindre grund har vi til at tro på H0-hypotesen.
Beslutning • Vælg signifikansniveau α. Typisk α=0.05. • Beslutning: • Hvis p-værdien < αafviser vi H0 og accepterer H1. • Hvis p-værdien ≥α kan vi ikke afvise H0. • P-værdien kan typisk kun udregnes vha. SPSS. • I SPSS betegnes p-værdien betegnes ’sig.’ (signifikans-sandsynlighed).
Eksempel i SPSS • Analyze → Descriptive Statistics → Crosstabs
SPSS output • Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uaghængige. Χ2-teststørrelse p-værdi
Mere end to variable • Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. • Det næste: Kan andre kontrolvariable hjælpe med at forstå sammenhængen? • Lad os se på nogle eksempler…
Sammenhæng mellem race og dom • Test: H0: Ingen sammenhæng ml. race og dom. • Teststørrelse: Χ2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), g = -0.155 • Konklusion: Vi kan ikke afvise H0. Dvs, vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. • (Simpelt: Ingen sammenhæng)
Kontrolvariabel: Offers race Χ2= 0.55 df = 1 p = 0.59 g = 1.00 Χ2= 96.5 df = 1 p = 0.000 g = 0.71
Opsummering • Sammenhængen mellem race og dom var skjult • Ikke-stratificeret analyse: Ikke-signifikant sammenhæng • Stratificeret analyse: Signifikant sammenhæng • Sammenhængen er muligvis lokal • Kun signifikant sammenhæng når offer er hvid • Simpsons paradoks – sammenhængen er ”vendt” • Ikke-stratificeret analyse: Hvide straffes hårdest! • Stratificeret analyse: Sorte straffes hårdest – uanset offers race.
Stratificering i SPSS • Stratificering efter offers race.
Elaborering: Arbejde og boligforhold • Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. • Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 • Konklusion: Signifikant sammenhæng
Bemærkninger • Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. • Hvad mon forklarer denne sammenhæng? • Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.
Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.
Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.
Konklusioner • Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. • Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. • Statistisker: Betinget uafhængighed.