400 likes | 536 Views
Statistik II 1. Lektion. Analyse af kontingenstabeller. Kursusbeskrivelse. Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS
E N D
Statistik II1. Lektion Analyse af kontingenstabeller
Kursusbeskrivelse • Omfang • 5 kursusgange (forelæsning + opgaveregning) • 5 kursusgange (mini-projekt) • Emner • Analyse af kontingenstabeller • Logistisk regression • Generelle lineære modeller • Log-lineære modeller • Software: Masser af SPSS • Eksamen • Mundtlig, individuel, med udgangspunkt i mini-projekt • Dato: Det skal vi have aftalt – mind mig lige om det!!
Variabeltyper • Spørgeskemaundersøgelse (Survey) • Svartyperne er • Kategoriske – der er et antal svarmuligheder • Nominel kategorisk, dvs. ordnede kategorier • Fx. Indkomstgruppe: Lav, Mellem eller Høj • Ordinale kategoriske, dvs. kategorier uden ordning. • Fx. Favorit M&M: Rød, Grøn eller Blå.
Dikotome variable • Dikotom variabel: Kategorisk variabel med kun to kategorier. • Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. • Hvis de to kategori er hhv 0 og 1kaldes variablen binær. • I SPSS omkoder dikotome variable til binære – hold øje med hvad omkodes til hvad. • I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.
Kontingenstabel: Eksempel • Sammenhængen mellem arbejdsløshed og eksponering for vold: • Er der en sammenhæng?
Sammenligne forhold • Antagelser: • Data repræsentativ for befolkningen • Der er en kausalitet • Ide: Sammenlign forholder mellem Nej’er og Ja’er blandt hhv. folk i og uden arbejde: • I arbejde : 2483/80 = 31.03 • Uden arbejde: 386/22 = 17.54 • Delkonklusion: De ser ret forskellige ud! Kaldes også Odds
Forhold mellem forhold… • Næste trin: Forholdet af forholdene: • Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.
Krydsprodukt-forholdet • En 2x2 tabel: • Krydsproduktforhold: • Forholdet mellem række-forhold: • Forholdet mellem søjle-forhold: Det samme!
g-koeffcienten • Definition: • Relation til k: • ... og omvendt: • Der er en en-til-en korrespondance mellem g og k. Dvs. g og kindeholder samme information om data.
Fortolkning af g • g = 0 hvis X og Y er uafhængige. • g = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data. • g = -1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data. • Minder om ”almindelig” korrelation.
Generel kontingenstabel • I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. • Spørgsmål: Er der sammenhæng mellem farvevalg og køn? Celle: Antal personer, der er kvinde og som foretrækker rød
Spørgsmålet på hovedet • Spørgsmål: Er der sammenhæng mellem farvevalg og køn? • Vi vender spørgsmålet på hovedet: • Spørgsmål: Kan vi afvise at der ingen sammenhæng er mellem køn og farvevalg? • Antag at der ingen sammenhæng er mellem køn og farvevalg. • Hvilket antal observationer ville vi så forvente i hver celle i vores kontingenstabel? • Vi antager at de marginale antal ligger fast, dvs. det totale antal mænd, kvinder, røde, grønne og blå.
Forventede antal • Hvis der ingen sammenhæng er mellem køn og farvevalg, så bør procentfordelingen være den samme blandt mænd og kvinder. • Andel røde: 55/124 = 44.4% • Forventede røde blandt mænd: 44.4% af 64 = 64*55/124 = 28.4
Generel formel for det forventede • I hver celle har vi • Xij: observerede antal i celle (i,j) • Eij: forventede antal i celle (i,j) • Desuden har vi • N: Totale antal observationer • Ci: Antal observationer i ’te kolonne • Rj: Antal observationer er j’te række • Forventede antal for celle ( i,j ) er • Eij= CiRj/ N
Ombytning uden betydning • Vi kan bytte rundt på farve og køn uden at det gør en forskel: • Andelen af mænd: 60/124 = 48.4% • Forventede antal mænd blandt røde: 48.4% af 55 = 55*60/124 = 28.4
Så langt så godt • Vi har… • Vi har arbejdshypotesen at der ikke er sammenhæng mellem køn og farvevalg • Vi har fundet de forventede antal, hvis arbejdshypotesen er sand. • Vi mangler… • Vi mangler et mål for hvor meget de forventede antal afviger fra de forventede. • Vi mangler en måde at afgøre, hvornår afvigelsen er så stor, at vi ikke længere kan acceptere arbejdshypotesen.
Mål for afvigelsen • Vi bruger følgende mål • Vi kalder c2 (”ki-i-anden”) en teststørrelse. • c2bruges til at teste arbejdshypotesen. • Bemærk: • c2≥ 0 • c2= 0 perfekt match • Jo større c2, jo mindre tror vi på arbejdshypotesen
c2 teststørrelse for eksemplet • I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. • Spørgsmål: 4.9 er ikke nul! Men er det så langt fra nul, at vi ikke kan acceptere arbejdshypotesen om ingen sammenhæng?
Simuleret svar • Antag at arbejdshypotesen er sand. • Vi får en computer til at simulere nye tabeller, under antagelse af • at arbejdshypotesen er sand • at række- og søjletotaler er som de observerede. • For hver tabel udregner vi c2. • Resultat med 1000 nye tabeller: • Hvis arbejds-hypotesen er sand vil 8.2% af tabellerne have en mere ”ekstrem” c2 værdi. • Er c2= 4.9 ekstremt?
Lidt mere teoretisk tilgang • Vi har en teoretisk fordeling, der svarer til histogrammet: • En såkaldt c2-fordeling med 2 frihedsgrader. • Det røde areal svarer til sandsynligheden for at observere en mere ekstrem c2-værdi. • Her er arealet 8.49%. Denne værdi kaldes også p-værdien. • I en general tabel med r rækker og c kolonner, vil histogrammet svare til en c2-fordeling med (r-1)(c-1).
Beslutningen! • Jo mere ekstrem c2 -værdi, jo mindre tror vi på arbejdshypotesen. • Jo mere ekstrem c2 -værdi, jo mindre p-værdi. • Hvis p-værdien er mindre end 5% så afviser vi arbejdshypotesen. • Vi siger at testen (af arbejdshypotesen) er signifikant. • Grænsen på de 5% kaldes signifikans-niveauet, og betegnes a. • Signifikans-niveauet kan vælges frit, mer er typisk 10%, 5% eller 1%. • Signifikans-niveauet vælges før teststørrelsen udregnes! • I eksemplet kan vi ikke afvise arbejdshypotesen. Vi kan altså ikke afvise af der ingen sammenhæng er mellem køn og farvevalg.
Signifikanstest generelt • Opstil statistisk model / statistiske antagelser • Fx. at stikprøven er tilfældigt udvalgt. • Opstil arbejds-hypotese • Betegnes H0 , nul-hypotesen • Fx. uafhængighed mellem køn og farvevalg • Opstil alternativ-hypotese • Den ”modsatte” hypotese af H0 • Betegnes H1 • Bemærk: Arbejdshypotesen er ikke nødvendigvis den hypotese vi tror på eller gerne vil ”bevise”. • Arbejdshypotesen er generelt valgt, så den er mere ”præcis” end alternativ-hypotesen. Uafhængighed (ingen sammenhæng) er præcist, mens alternativet, afhængighed, kan være mange ting.
Signifikanstest generelt forts. • Vælg signifikans niveau a • Typisk 5%. • Konstruer en test-størrelse • Hvilke værdier er ekstreme for H0? • Beregn teststørrelsen • Beregning af test-størrelse ordnes af SPSS • Beregn p-værdien • p-værdien er sandsynligheden for at observere en mere ekstrem test-størrelse ”næste gang”, under antagelse af at modellen og dens antagelser er korrekte. • Hvis p-værdien < a, så kan vi ikke afvise H0. • Hvis p-værdien > a, så afviser vi H0 og accepterer H1 hypotesen. • Fortolk resultatet.
Man begår fejl • Når vi udfører en signifikanstest kan vi begå en af to fejl • Type 1 fejl: Vi afviser H0 selvom den er sand • Type 2 fejl: Vi accepterer H0selvom den er falsk • Antag modellen er korrekt, H0 er sand og at vi har valg et signifikans-niveau a. • Hvad er da sandsynligheden for at begå en Type 1 fejl?
Lidt gode råd • p-værdien er ikke sandsynligheden for at H0 er sand. • p-værdien er ikke er udtryk for styrken af sammenhængen mellem to variable. • p-værdien kan fortolkes som et udtryk for hvor meget vi tror på H0 hypotesen. • HVER GANG i ser en p-værdi i SPSS (”sig.”), så gør jer hver gang klart, hvilken H0 hypotese den passer sammen med!!! • Det er nemt nu, men det bliver mere indviklet senere…
Eksempel i SPSS • Analyze → Descriptive Statistics → Crosstabs
SPSS output • Opstiller hypoteser: • H0: Uafhængighed mellem arbejdsløs og vold/trusler • H0 : Afhængighed • Sig. niv.a = 5% • Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uafhængige. c2-teststørrelse p-værdi
Mere end to variable • Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. • Det næste: Kan andre katogoriske kontrolvariable hjælpe med at forstå sammenhængen? • Ideen er at inddele det indsamlede data efter hvert svar i kontrolvariablen. Og derefter gentage tabelanalysen for hver delmængde af data. Vi siger vi stratificerer efter kontrolvariablen. • Lad os se på nogle eksempler…
Sammenhæng mellem race og dom • Test: H0: Ingen sammenhæng ml. race og dom. • Teststørrelse: c2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), g = -0.155 • Konklusion: Vi kan ikke afvise H0. Dvs., vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. • (Simpelt: Ingen sammenhæng)
Kontrolvariabel: Offers race Χ2= 0.55 df = 1 p = 0.59 g = 1.00 Χ2= 96.5 df = 1 p = 0.000 g = 0.71
Opsummering • Sammenhængen mellem race og dom var skjult • Ikke-stratificeret analyse: Ikke-signifikant sammenhæng • Stratificeret analyse: Signifikant sammenhæng • Sammenhængen er muligvis lokal • Kun signifikant sammenhæng når offer er hvid • Simpsons paradoks – sammenhængen er ”vendt” • Ikke-stratificeret analyse: Hvide straffes hårdest! • Stratificeret analyse: Sorte straffes hårdest – uanset offers race.
Stratificering i SPSS • Stratificering efter offers race.
Elaborering: Arbejde og boligforhold • Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. • Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 • Konklusion: Signifikant sammenhæng
Bemærkninger • Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. • Hvad mon forklarer denne sammenhæng? • Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.
Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.
Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.
Konklusioner • Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. • Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. • Statistiker: Betinget uafhængighed.