1 / 40

Statistik II 1. Lektion

Statistik II 1. Lektion. Analyse af kontingenstabeller. Kursusbeskrivelse. Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Log-lineære modeller Software: Masser af SPSS

kamali
Download Presentation

Statistik II 1. Lektion

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik II1. Lektion Analyse af kontingenstabeller

  2. Kursusbeskrivelse • Omfang • 5 kursusgange (forelæsning + opgaveregning) • 5 kursusgange (mini-projekt) • Emner • Analyse af kontingenstabeller • Logistisk regression • Generelle lineære modeller • Log-lineære modeller • Software: Masser af SPSS • Eksamen • Mundtlig, individuel, med udgangspunkt i mini-projekt • Dato: Det skal vi have aftalt.

  3. Kontingenstabeller • Typisk: Spørgeskemaundersøgelse (Survey) • Svartyperne er • Kategoriske – der er et antal svarmuligheder • Nominel kategorisk, dvs. ordnede kategorier • Fx. Indkomstgruppe: Lav, Mellem eller Høj • Ordinale kategoriske, dvs. kategorier uden ordning. • Fx. Favoritfarve: Rød, Grøn, Blå eller Anden. • Kontingenstabel • Tabel over antal observationer, der falder i forskellige kombinationer af kategorier.

  4. Dikotome variable • Dikotom variabel: Kategorisk variabel med kun to kategorier. • Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. • Hvis de to kategori er hhv 0 og 1kaldes variablen binær. • I SPSS omkoder dikotome variable til binære – hold øje med hvad omkodes til hvad. • I dag: Analyse af sammenhæng mellem to ellere flere dikotome variable.

  5. Eksempel • Sammenhængen mellem arbejdsløshed og eksponering for vold: • Er der en sammenhæng?

  6. Sammenligne forhold • Antagelser: • Data repræsentativ for befolkningen • Der er en kausalitet • Ide: Sammenlign forholder mellem Nej’er og Ja’er blandt hhv. folk i og uden arbejde: • I arbejde : 2483/80 = 31.03 • Uden arbejde: 386/22 = 17.54 • Delkonklusion: De ser ret forskellige ud!

  7. Forhold mellem forhold… • Næste trin: Forholdet af forholdene: • Hvis de to forhold er ens, så er forholdet mellem forholdene = 1.

  8. Krydsprodukt-forholdet • En 2x2 tabel: • Krydsproduktforhold: • Forholdet mellem række-forhold: • Forholdet mellem søjle-forhold: Det samme!

  9. Samme sammenhæng Samme rækkeforhold • Sammenhæng mellem A og B som mellem X og Y • Sammenhæng mellem A og B som mellem U og V • Krydsprodukter: Samme søjleforhold

  10. Mere krydsprodukt Forskellige rækkeforhold Forskellige søjleforhold Begge krydsprodukter = 3! Konstruer ny tabel Samme rækkeforhold Samme søjleforhold

  11. Krydsproduktet og odds • Lad X og Y være binære variabel • Da er odds’et for X: • Betinget odds: Odds’et for X givet Y=1: • Krydsproduktet er det samme om Odds-ratio:

  12. g-koeffcienten • Definition: • Relation til k: • ... og omvendt: • Der er en en-til-en korrespondance mellem g og k. Dvs. g og kindeholder samme information om data.

  13. Fortolkning af g • g = 0 hvis X og Y er uafhængige. • g = +1 hvis b eller c er lig nul, dvs. hvis stærkest mulige positive relation i data. • g = -1 hvis a eller d er lig nul, dvs. hvis stærkest mulige negative relation i data. • Minder om ”almindelig” korrelation.

  14. Konfidensinterval for g • Et 95% konfidensinterval for sande g : Hvor • I begge formler er g estimeret fra data.

  15. Konfidensinterval for g • Eksemplet: • 95% konfidensinterval 0 0.055 0.501

  16. Signifikanstest og tabeller • Mål: Afgøre om der er sammenhæng mellem to kategoriske variable • Ide: Find de forventede antal, under antagelse af, at der ingen sammenhæng er. • Sammenlign de faktisk observerede antal med de forventede. • Beslutning: Hvis forskellen mellem forventede og observerede antal er for stor, tror vi på, at der er en sammenhæng.

  17. Forventet vs Observeret • Flyskræk igen! • Hvilke antal forventes, hvis der ingen sammenhæng var mellem arbejdsløshed og vold/trusler?

  18. Plads til udregninger

  19. Mål for forskellen mellem observeret og forventet antal • Lad Oiog Eivære hhv. observerede og forventede antal i den i’te celle i tabellen. • Forskellen mellem Oi’erne og Ei’erne opsummeres ved • Hvis Χ2=0 passer observeret og forventet perfekt sammen. • Jo større Χ2er, jo dårligere passer de sammen… • …og jo mindre tror vi på uafhængighed.

  20. r x c Kontingenstabeller • Kontingstabellen består af r rækker og c kolonner. • Første kategoriske variabel (Helbred)har c kategorier. • Anden kategoriske variabel (Jobtype) har r kategorier. Celle (3,4) • Det forventede antal observationer i celle (i,j) er Eij = n (Ri / n )( Cj / n ) = RiCj/ n

  21. Signifikanstest generelt • Opstil to hypoteser: • Nul-hypotese (H0): Påstand om data, der er beskrevet ved en (simpel) statistisk model. • Alternativ-hypotese (H1): Det modsatte af nul-hypotesen. • Princip: Vi tror på H0 hypotesen indtil data giver os grund til andet. • ”Enhver er uskyldig indtil hans skyld er bevist udover enhver rimelig tvivl”.

  22. Signifikanstest i kontingenstabeller. • Antag at X og Y er kategoriske stokastiske variable. • Vi opstiller to hypoteser: • H0: Uafhængighed mellem X og Y. • H1: Afhængighed mellem X og Y.

  23. Teststørrelse generelt • Teststørrelse: Talstørrelse, der beskriver hvordan data passer til nul-hypotesen. • Husk: Afgør hvilke værdier af teststørrelsen, der er ufordelagtige for H0. • I kontingenstabel • Teststørrelse: • Store værdier af Χ2 er ufordelagtige for H0. • Bemærk: Alle Ei’er skal helst være ≥ 5.

  24. p-værdi • P-værdi: Hvis H0 er sand, da er p-værdien sandsynligheden for at observere en mere ufordelagtig teststørrelse ”næste gang”. • Fortolkning: Hvis p-værdien er meget lille har vi observeret data, der er meget ufordelagtig for H0. • Med andre ord: Jo mindre p-værdi, jo mindre grund har vi til at tro på H0-hypotesen.

  25. Beslutning • Vælg signifikansniveau α. Typisk α=0.05. • Beslutning: • Hvis p-værdien < αafviser vi H0 og accepterer H1. • Hvis p-værdien ≥α kan vi ikke afvise H0. • P-værdien kan typisk kun udregnes vha. SPSS. • I SPSS betegnes p-værdien betegnes ’sig.’ (signifikans-sandsynlighed).

  26. Eksempel i SPSS • Analyze → Descriptive Statistics → Crosstabs

  27. SPSS output • Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uaghængige. Χ2-teststørrelse p-værdi

  28. Mere SPSS output

  29. Mere end to variable • Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. • Det næste: Kan andre kontrolvariable hjælpe med at forstå sammenhængen? • Lad os se på nogle eksempler…

  30. Sammenhæng mellem race og dom • Test: H0: Ingen sammenhæng ml. race og dom. • Teststørrelse: Χ2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), g = -0.155 • Konklusion: Vi kan ikke afvise H0. Dvs, vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. • (Simpelt: Ingen sammenhæng)

  31. Kontrolvariabel: Offers race Χ2= 0.55 df = 1 p = 0.59 g = 1.00 Χ2= 96.5 df = 1 p = 0.000 g = 0.71

  32. Opsummering • Sammenhængen mellem race og dom var skjult • Ikke-stratificeret analyse: Ikke-signifikant sammenhæng • Stratificeret analyse: Signifikant sammenhæng • Sammenhængen er muligvis lokal • Kun signifikant sammenhæng når offer er hvid • Simpsons paradoks – sammenhængen er ”vendt” • Ikke-stratificeret analyse: Hvide straffes hårdest! • Stratificeret analyse: Sorte straffes hårdest – uanset offers race.

  33. Stratificering i SPSS • Stratificering efter offers race.

  34. Elaborering: Arbejde og boligforhold • Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. • Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 • Konklusion: Signifikant sammenhæng

  35. Bemærkninger • Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. • Hvad mon forklarer denne sammenhæng? • Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.

  36. Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

  37. Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.

  38. Konklusioner • Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. • Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. • Statistisker: Betinget uafhængighed.

  39. SPSS

More Related