1 / 40

Statistik II 1. Lektion

Statistik II 1. Lektion. Analyse af kontingenstabeller. Kursusbeskrivelse. Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS

fathia
Download Presentation

Statistik II 1. Lektion

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik II1. Lektion Analyse af kontingenstabeller

  2. Kursusbeskrivelse • Omfang • 5 kursusgange (forelæsning + opgaveregning) • 5 kursusgange (mini-projekt) • Emner • Analyse af kontingenstabeller • Logistisk regression • Generelle lineære modeller • Log-lineære modeller • Software: Masser af SPSS • Eksamen • Mundtlig, individuel, med udgangspunkt i mini-projekt • Dato: Det skal vi have aftalt – mind mig lige om det!!

  3. Variabeltyper • Spørgeskemaundersøgelse (Survey) • Svartyperne er • Kategoriske – der er et antal svarmuligheder • Nominel kategorisk, dvs. ordnede kategorier • Fx. Indkomstgruppe: Lav, Mellem eller Høj • Ordinale kategoriske, dvs. kategorier uden ordning. • Fx. Favorit M&M: Rød, Grøn eller Blå.

  4. Dikotome variable • Dikotom variabel: Kategorisk variabel med kun to kategorier. • Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. • Hvis de to kategori er hhv 0 og 1kaldes variablen binær. • I SPSS omkoder dikotome variable til binære – hold øje med hvad omkodes til hvad. • I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.

  5. Kontingenstabel: Eksempel • Sammenhængen mellem arbejdsløshed og eksponering for vold: • Er der en sammenhæng?

  6. Sammenligne forhold • Antagelser: • Data repræsentativ for befolkningen • Der er en kausalitet • Ide: Sammenlign forholder mellem Nej’er og Ja’er blandt hhv. folk i og uden arbejde: • I arbejde : 2483/80 = 31.03 • Uden arbejde: 386/22 = 17.54 • Delkonklusion: De ser ret forskellige ud! Kaldes også Odds

  7. Forhold mellem forhold… • Næste trin: Forholdet af forholdene: • Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.

  8. Krydsprodukt-forholdet • En 2x2 tabel: • Krydsproduktforhold: • Forholdet mellem række-forhold: • Forholdet mellem søjle-forhold: Det samme!

  9. g-koeffcienten • Definition: • Relation til k: • ... og omvendt: • Der er en en-til-en korrespondance mellem g og k. Dvs. g og kindeholder samme information om data.

  10. Fortolkning af g • g = 0 hvis X og Y er uafhængige. • g = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data. • g = -1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data. • Minder om ”almindelig” korrelation.

  11. Generel kontingenstabel • I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. • Spørgsmål: Er der sammenhæng mellem farvevalg og køn? Celle: Antal personer, der er kvinde og som foretrækker rød

  12. Spørgsmålet på hovedet • Spørgsmål: Er der sammenhæng mellem farvevalg og køn? • Vi vender spørgsmålet på hovedet: • Spørgsmål: Kan vi afvise at der ingen sammenhæng er mellem køn og farvevalg? • Antag at der ingen sammenhæng er mellem køn og farvevalg. • Hvilket antal observationer ville vi så forvente i hver celle i vores kontingenstabel? • Vi antager at de marginale antal ligger fast, dvs. det totale antal mænd, kvinder, røde, grønne og blå.

  13. Forventede antal • Hvis der ingen sammenhæng er mellem køn og farvevalg, så bør procentfordelingen være den samme blandt mænd og kvinder. • Andel røde: 55/124 = 44.4% • Forventede røde blandt mænd: 44.4% af 64 = 64*55/124 = 28.4

  14. Generel formel for det forventede • I hver celle har vi • Xij: observerede antal i celle (i,j) • Eij: forventede antal i celle (i,j) • Desuden har vi • N: Totale antal observationer • Ci: Antal observationer i ’te kolonne • Rj: Antal observationer er j’te række • Forventede antal for celle ( i,j ) er • Eij= CiRj/ N

  15. Ombytning uden betydning • Vi kan bytte rundt på farve og køn uden at det gør en forskel: • Andelen af mænd: 60/124 = 48.4% • Forventede antal mænd blandt røde: 48.4% af 55 = 55*60/124 = 28.4

  16. Så langt så godt • Vi har… • Vi har arbejdshypotesen at der ikke er sammenhæng mellem køn og farvevalg • Vi har fundet de forventede antal, hvis arbejdshypotesen er sand. • Vi mangler… • Vi mangler et mål for hvor meget de forventede antal afviger fra de forventede. • Vi mangler en måde at afgøre, hvornår afvigelsen er så stor, at vi ikke længere kan acceptere arbejdshypotesen.

  17. Mål for afvigelsen • Vi bruger følgende mål • Vi kalder c2 (”ki-i-anden”) en teststørrelse. • c2bruges til at teste arbejdshypotesen. • Bemærk: • c2≥ 0 • c2= 0 perfekt match • Jo større c2, jo mindre tror vi på arbejdshypotesen

  18. c2 teststørrelse for eksemplet • I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. • Spørgsmål: 4.9 er ikke nul! Men er det så langt fra nul, at vi ikke kan acceptere arbejdshypotesen om ingen sammenhæng?

  19. Simuleret svar • Antag at arbejdshypotesen er sand. • Vi får en computer til at simulere nye tabeller, under antagelse af • at arbejdshypotesen er sand • at række- og søjletotaler er som de observerede. • For hver tabel udregner vi c2. • Resultat med 1000 nye tabeller: • Hvis arbejds-hypotesen er sand vil 8.2% af tabellerne have en mere ”ekstrem” c2 værdi. • Er c2= 4.9 ekstremt?

  20. Lidt mere teoretiske tilgang

  21. Lidt mere teoretisk tilgang • Vi har en teoretisk fordeling, der svarer til histogrammet: • En såkaldt c2-fordeling med 2 frihedsgrader. • Det røde areal svarer til sandsynligheden for at observere en mere ekstrem c2-værdi. • Her er arealet 8.49%. Denne værdi kaldes også p-værdien. • I en general tabel med r rækker og c kolonner, vil histogrammet svare til en c2-fordeling med (r-1)(c-1).

  22. Beslutningen! • Jo mere ekstrem c2 -værdi, jo mindre tror vi på arbejdshypotesen. • Jo mere ekstrem c2 -værdi, jo mindre p-værdi. • Hvis p-værdien er mindre end 5% så afviser vi arbejdshypotesen. • Vi siger at testen (af arbejdshypotesen) er signifikant. • Grænsen på de 5% kaldes signifikans-niveauet, og betegnes a. • Signifikans-niveauet kan vælges frit, mer er typisk 10%, 5% eller 1%. • Signifikans-niveauet vælges før teststørrelsen udregnes! • I eksemplet kan vi ikke afvise arbejdshypotesen. Vi kan altså ikke afvise af der ingen sammenhæng er mellem køn og farvevalg.

  23. Signifikanstest generelt • Opstil statistisk model / statistiske antagelser • Fx. at stikprøven er tilfældigt udvalgt. • Opstil arbejds-hypotese • Betegnes H0 , nul-hypotesen • Fx. uafhængighed mellem køn og farvevalg • Opstil alternativ-hypotese • Den ”modsatte” hypotese af H0 • Betegnes H1 • Bemærk: Arbejdshypotesen er ikke nødvendigvis den hypotese vi tror på eller gerne vil ”bevise”. • Arbejdshypotesen er generelt valgt, så den er mere ”præcis” end alternativ-hypotesen. Uafhængighed (ingen sammenhæng) er præcist, mens alternativet, afhængighed, kan være mange ting.

  24. Signifikanstest generelt forts. • Vælg signifikans niveau a • Typisk 5%. • Konstruer en test-størrelse • Hvilke værdier er ekstreme for H0? • Beregn teststørrelsen • Beregning af test-størrelse ordnes af SPSS • Beregn p-værdien • p-værdien er sandsynligheden for at observere en mere ekstrem test-størrelse ”næste gang”, under antagelse af at modellen og dens antagelser er korrekte. • Hvis p-værdien < a, så kan vi ikke afvise H0. • Hvis p-værdien > a, så afviser vi H0 og accepterer H1 hypotesen. • Fortolk resultatet.

  25. Man begår fejl • Når vi udfører en signifikanstest kan vi begå en af to fejl • Type 1 fejl: Vi afviser H0 selvom den er sand • Type 2 fejl: Vi accepterer H0selvom den er falsk • Antag modellen er korrekt, H0 er sand og at vi har valg et signifikans-niveau a. • Hvad er da sandsynligheden for at begå en Type 1 fejl?

  26. Lidt gode råd • p-værdien er ikke sandsynligheden for at H0 er sand. • p-værdien er ikke er udtryk for styrken af sammenhængen mellem to variable. • p-værdien kan fortolkes som et udtryk for hvor meget vi tror på H0 hypotesen. • HVER GANG i ser en p-værdi i SPSS (”sig.”), så gør jer hver gang klart, hvilken H0 hypotese den passer sammen med!!! • Det er nemt nu, men det bliver mere indviklet senere…

  27. Eksempel i SPSS • Analyze → Descriptive Statistics → Crosstabs

  28. SPSS output • Opstiller hypoteser: • H0: Uafhængighed mellem arbejdsløs og vold/trusler • H0 : Afhængighed • Sig. niv.a = 5% • Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uafhængige. c2-teststørrelse p-værdi

  29. Mere SPSS output

  30. Mere end to variable • Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. • Det næste: Kan andre katogoriske kontrolvariable hjælpe med at forstå sammenhængen? • Ideen er at inddele det indsamlede data efter hvert svar i kontrolvariablen. Og derefter gentage tabelanalysen for hver delmængde af data. Vi siger vi stratificerer efter kontrolvariablen. • Lad os se på nogle eksempler…

  31. Sammenhæng mellem race og dom • Test: H0: Ingen sammenhæng ml. race og dom. • Teststørrelse: c2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), g = -0.155 • Konklusion: Vi kan ikke afvise H0. Dvs., vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. • (Simpelt: Ingen sammenhæng)

  32. Kontrolvariabel: Offers race Χ2= 0.55 df = 1 p = 0.59 g = 1.00 Χ2= 96.5 df = 1 p = 0.000 g = 0.71

  33. Opsummering • Sammenhængen mellem race og dom var skjult • Ikke-stratificeret analyse: Ikke-signifikant sammenhæng • Stratificeret analyse: Signifikant sammenhæng • Sammenhængen er muligvis lokal • Kun signifikant sammenhæng når offer er hvid • Simpsons paradoks – sammenhængen er ”vendt” • Ikke-stratificeret analyse: Hvide straffes hårdest! • Stratificeret analyse: Sorte straffes hårdest – uanset offers race.

  34. Stratificering i SPSS • Stratificering efter offers race.

  35. Elaborering: Arbejde og boligforhold • Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. • Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 • Konklusion: Signifikant sammenhæng

  36. Bemærkninger • Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. • Hvad mon forklarer denne sammenhæng? • Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.

  37. Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

  38. Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

  39. Konklusioner • Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. • Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. • Statistiker: Betinget uafhængighed.

More Related