1 / 27

Kapitel 11: Analyse af sammenh ngen mellem kategoriske variable

2. Indl

Mia_John
Download Presentation

Kapitel 11: Analyse af sammenh ngen mellem kategoriske variable

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. 1 Kapitel 11: Analyse af sammenhængen mellem kategoriske variable Afsnit 11.1: Hvad er uafhængighed og hvad er sammenhæng?

    2. 2 Indlæringsmål Sammenligne andele Uafhængighed vs. afhængighed

    3. 3 Er der en sammenhæng mellem glæde og indkomst? Procentandelen i en bestemt række i tabellen kaldes den betingede procentandel. De former den betingede fordeling over glæde, givet et bestemt indkomstniveau. Retningslinier når der skal konstrueres tabeller med betingede fordelinger; Placer responsvariablen i søjlerne (glæde) Beregn de betingede andele for responsvariablen for hver række Inkluder den totale stikprøvestørrelseProcentandelen i en bestemt række i tabellen kaldes den betingede procentandel. De former den betingede fordeling over glæde, givet et bestemt indkomstniveau. Retningslinier når der skal konstrueres tabeller med betingede fordelinger; Placer responsvariablen i søjlerne (glæde) Beregn de betingede andele for responsvariablen for hver række Inkluder den totale stikprøvestørrelse

    4. 4 Er der en sammenhæng mellem glæde og indkomst?

    5. 5 Hvis der f.eks. skulle være uafhængighed mellem indkomst og køn ville de relative andele fordele sig som følgende: Spørgsmålet er om andelene fordeler sig signifikant forskelligt fra ovenstående. Hvis de gør, er de to variable afhængige. Uahængighed eller afhængighed mellem glæde og indkomst? Definitionen vedr. uafhængighed mellem variablene referer til populationen Tabellen er en stikprøve ikke en population Selv om variablene er uafhængige vil vi ikke forvente at stikprøvens betingede fordelinger er ens. På grund af stikprøvevariation, vil hver stikprøve typisk afvige noget fra den sande populations fordeling Definitionen vedr. uafhængighed mellem variablene referer til populationen Tabellen er en stikprøve ikke en population Selv om variablene er uafhængige vil vi ikke forvente at stikprøvens betingede fordelinger er ens. På grund af stikprøvevariation, vil hver stikprøve typisk afvige noget fra den sande populations fordeling

    6. 6 Kapitel 11: Analyse af sammenhængen mellem kategoriske variable Afsnit 11.2: Hvordan kan vi teste om kategoriske variable er uafhængige?

    7. 7 Indlæringsmål Signifikanstest for kategoriske variable Hvilke værdier forventer vi i de enkelte celler hvis variablene er uafhængige? Hvordan finder vi det forventede antal observationer I de enkelte celler? teststørrelse fordeling De fem trin for et test af uafhængighed

    8. 8 Indlæringsmål anvendes også som et test af homogenitet og test til brug for sammenligning af andele i 2x2 tabeller Begræsninger ved test

    9. 9 Indlæringsmål 1: Signifikanstest for kategoriske variable Opstil en tabel af frekvenser fordelt på to kategoriske variable Hypoteserne er: H0: De to variable er uafhængige Ha: De to variable er afhængige Testen antager en stor, tilfældig udvalgt stikprøve (antallet af observationer i hver celle er på mindst 5)

    10. 10 Indlæringsmål 2: Hvad forventer vi at celleantallet skal være hvis variablene er uafhængige? Antallet i enhver celle er en stokastisk variabel Forskellige stikprøver har forskellige antal værdier Middelværdien af dets fordeling er det forventede celleantal Dette findes under antagelsen af at H0 er sand

    11. 11 Indlæringsmål 3: Hvordan finder vi det forventede celleantal? Forventede celleantal: For en bestemt celle, Den forventede frekvens er værdierne som har de samme række- og kolonnetotaler som det observerede antal, men for hvilken de betingede fordelinger er identiske (dette er antagelsen af nul hypotesen).

    12. 12 Indlæringsmål 3: Hvordan finder vi det forventede celleantal? Eksempel

    13. 13 Indlæringsmål 4: Chi-i-anden teststørrelsen Chi-i-anden teststørrelsen opsummerer hvor langt væk de observerede celle antal I en kontingenstabel falder fra de forventede celle antal under antagelse af nul hypotesen

    14. 14 Opstilling af hypoteser for denne test H0: Glæde og indkomst er uafhængige Ha: Glæde og indkomst er afhængige Indlæringsmål 4: Eksempel: Glæde og indkomst

    15. 15 Beregning af teststørrelsen, : (21-35,8)2/35,8 + (159-166,1)2/166,1 + (110-88,1)2/88,1+ (53-79,7)2/79,7 + (372-370)2/370,0 + (221-196,4)2/196,4 + (94-52,5)2/52,5 + (249-244)2/244,0 + (83-129,5)2/129,5 = 73,49 værdien er 73,4 Eksempel: Glæde og indkomst

    16. 16 Jo større værdien er, jo større bevis er der mod nul hypotesen om uafhængighed og til støtte for alternativ hypotesen om at glæde og indkomst følges ad Chi-i-anden Teststørrelsen

    17. 17 Chi-i-anden fordelingen For at omregne teststørrelsen til en P-værdi bruger vi stikprøve fordelingen af estimatet For store stikprøvestørrelser er stikprøvefordelingen godt approximeret ved chi-i-anden sandsynlighedsfordelingen

    18. 18 Chi-i-anden fordelingen

    19. 19 Chi-i-anden fordelingen Hovedegenskaber ved chi-i-anden fordelingen: Kan ikke være negativ da man kvadrerer forskellen I tælleren Min værdien er 0, hvis observeret celleantal lig med forventede celleantal Formen på fordelingen afhænger af antal frihedsgrader: df = (r-1)(c-1), hvor r = antal rækker og c = antal kolonner Middelværdien fordelingen er lig med df værdien Fordelingen er skæv til højre Når df stiger bliver fordelingen mere klokkeformet Jo større værdi, jo større bevis mod H0: uafhængighed

    20. 20 Chi-i-anden fordelingen

    21. 21 5 trins metodik Test af uafhængighed i Chi-i-anden fordelingen 1. Antagelser: To kvalitative variable Tilfældighed Forventede antal = 5 i alle celler

    22. 22 5 trins metodik Test af uafhængighed i Chi-i-anden fordelingen 2. Hypoteser: H0: De to variable er uafhængige Ha: De to variable er afhængige (associated) 3. Teststørrelse:

    23. 23 5 trins metodik Test af uafhængighed i Chi-i-anden fordelingen 4. P-værdi: Sandsynligheden er højre siden af den observerede værdi i chi-i-anden fordelingen med frihedsgraderne df = (r-1)(c-1), hvor r = antal rækker og C = antal søjler 5. Konklusion: Sæt den rapporterede P-værdi ind i en sammenhæng Forkast H0 når P-værdien = significansniveauet

    24. 24 Chi-i-anden bruges også til ”test af homogenitet” Chi-i-anden testen afhænger ikke af hvilken variabel der anvendes som respons variabel og hvilken der er den forklarende variabel Når en respons variabel er identificeret og populationens betingede fordelinger er identiske, siges de at være homogene Testen er da refereret til som en test af homogenitet

    25. 25 Begrænsninger ved Chi-i-anden Testen Hvis P-værdiener meget lille er der stærk bevis mod nul hypotesen men… Teststørrelsen og P-værdien fortæller os ingenting om styrken af sammenhæng

    26. 26 Begrænsninger ved Chi-i-anden Testen Chi-i-anden test bliver ofte misbrugt, f.eks.; Når nogle af de forventede frekvenser er for små Når nogle af rækkerne eller kolonnerne er afhængige stikprøver data ikke er tilfældig udvalgte kvantitative data bliver klassificeret som kvalitative – resulterende i tabt information

    27. 27 Høj betyder ikke at der er en stærk sammenhæng En høj chi-i-anden testværdi giver stærk bevis for at der er sammenhæng mellem variablene Det betyder ikke, at der mellem variablene er en stærk sammenhæng Teststørrelsen indikerer mere (igennem dets P-værdi) hvor sikre vi kan være for at der er en sammehæng mellem variablene, men ikke hvor stærk denne sammenhæng er

    28. 28 Øvelser 11.9, side 562 11.10, side 562

More Related