270 likes | 570 Views
2. Indl
E N D
1. 1 Kapitel 11: Analyse af sammenhængen mellem kategoriske variable Afsnit 11.1: Hvad er uafhængighed og hvad er sammenhæng?
2. 2 Indlæringsmål Sammenligne andele
Uafhængighed vs. afhængighed
3. 3 Er der en sammenhæng mellem glæde og indkomst? Procentandelen i en bestemt række i tabellen kaldes den betingede procentandel.
De former den betingede fordeling over glæde, givet et bestemt indkomstniveau.
Retningslinier når der skal konstrueres tabeller med betingede fordelinger;
Placer responsvariablen i søjlerne (glæde)
Beregn de betingede andele for responsvariablen for hver række
Inkluder den totale stikprøvestørrelseProcentandelen i en bestemt række i tabellen kaldes den betingede procentandel.
De former den betingede fordeling over glæde, givet et bestemt indkomstniveau.
Retningslinier når der skal konstrueres tabeller med betingede fordelinger;
Placer responsvariablen i søjlerne (glæde)
Beregn de betingede andele for responsvariablen for hver række
Inkluder den totale stikprøvestørrelse
4. 4 Er der en sammenhæng mellem glæde og indkomst?
5. 5 Hvis der f.eks. skulle være uafhængighed mellem
indkomst og køn ville de relative andele fordele sig som
følgende:
Spørgsmålet er om andelene fordeler sig signifikant
forskelligt fra ovenstående. Hvis de gør, er de to
variable afhængige. Uahængighed eller afhængighed mellem glæde og indkomst? Definitionen vedr. uafhængighed mellem variablene referer til populationen
Tabellen er en stikprøve ikke en population
Selv om variablene er uafhængige vil vi ikke forvente at stikprøvens betingede fordelinger er ens.
På grund af stikprøvevariation, vil hver stikprøve typisk afvige noget fra den sande populations fordeling
Definitionen vedr. uafhængighed mellem variablene referer til populationen
Tabellen er en stikprøve ikke en population
Selv om variablene er uafhængige vil vi ikke forvente at stikprøvens betingede fordelinger er ens.
På grund af stikprøvevariation, vil hver stikprøve typisk afvige noget fra den sande populations fordeling
6. 6 Kapitel 11: Analyse af sammenhængen mellem kategoriske variable Afsnit 11.2: Hvordan kan vi teste om kategoriske variable er uafhængige?
7. 7 Indlæringsmål Signifikanstest for kategoriske variable
Hvilke værdier forventer vi i de enkelte celler hvis variablene er uafhængige?
Hvordan finder vi det forventede antal observationer I de enkelte celler?
teststørrelse
fordeling
De fem trin for et test af uafhængighed
8. 8 Indlæringsmål anvendes også som et test af homogenitet
og test til brug for sammenligning af andele i 2x2 tabeller
Begræsninger ved test
9. 9 Indlæringsmål 1: Signifikanstest for kategoriske variable Opstil en tabel af frekvenser fordelt på to kategoriske variable
Hypoteserne er:
H0: De to variable er uafhængige
Ha: De to variable er afhængige
Testen antager en stor, tilfældig udvalgt stikprøve (antallet af observationer i hver celle er på mindst 5)
10. 10 Indlæringsmål 2: Hvad forventer vi at celleantallet skal være hvis variablene er uafhængige? Antallet i enhver celle er en stokastisk variabel
Forskellige stikprøver har forskellige antal værdier
Middelværdien af dets fordeling er det forventede celleantal
Dette findes under antagelsen af at H0 er sand
11. 11 Indlæringsmål 3:Hvordan finder vi det forventede celleantal? Forventede celleantal:
For en bestemt celle,
Den forventede frekvens er værdierne som har de samme række- og kolonnetotaler som det observerede antal, men for hvilken de betingede fordelinger er identiske (dette er antagelsen af nul hypotesen).
12. 12 Indlæringsmål 3:Hvordan finder vi det forventede celleantal?Eksempel
13. 13 Indlæringsmål 4: Chi-i-anden teststørrelsen Chi-i-anden teststørrelsen opsummerer hvor langt væk de observerede celle antal I en kontingenstabel falder fra de forventede celle antal under antagelse af nul hypotesen
14. 14 Opstilling af hypoteser for denne test
H0: Glæde og indkomst er uafhængige
Ha: Glæde og indkomst er afhængige
Indlæringsmål 4:Eksempel: Glæde og indkomst
15. 15 Beregning af teststørrelsen, :
(21-35,8)2/35,8 + (159-166,1)2/166,1 + (110-88,1)2/88,1+ (53-79,7)2/79,7 + (372-370)2/370,0 + (221-196,4)2/196,4 + (94-52,5)2/52,5 + (249-244)2/244,0 + (83-129,5)2/129,5 = 73,49
værdien er 73,4
Eksempel: Glæde og indkomst
16. 16
Jo større værdien er, jo større bevis er der mod nul hypotesen om uafhængighed og til støtte for alternativ hypotesen om at glæde og indkomst følges ad Chi-i-anden Teststørrelsen
17. 17 Chi-i-anden fordelingen For at omregne teststørrelsen til en P-værdi bruger vi stikprøve fordelingen af estimatet
For store stikprøvestørrelser er stikprøvefordelingen godt approximeret ved chi-i-anden sandsynlighedsfordelingen
18. 18 Chi-i-anden fordelingen
19. 19 Chi-i-anden fordelingen Hovedegenskaber ved chi-i-anden fordelingen:
Kan ikke være negativ da man kvadrerer forskellen I tælleren
Min værdien er 0, hvis observeret celleantal lig med forventede celleantal
Formen på fordelingen afhænger af antal frihedsgrader:
df = (r-1)(c-1), hvor r = antal rækker og c = antal kolonner
Middelværdien fordelingen er lig med df værdien
Fordelingen er skæv til højre
Når df stiger bliver fordelingen mere klokkeformet
Jo større værdi, jo større bevis mod H0: uafhængighed
20. 20 Chi-i-anden fordelingen
21. 21 5 trins metodikTest af uafhængighed i Chi-i-anden fordelingen 1. Antagelser:
To kvalitative variable
Tilfældighed
Forventede antal = 5 i alle celler
22. 22 5 trins metodikTest af uafhængighed i Chi-i-anden fordelingen 2. Hypoteser:
H0: De to variable er uafhængige
Ha: De to variable er afhængige (associated)
3. Teststørrelse:
23. 23 5 trins metodikTest af uafhængighed i Chi-i-anden fordelingen 4. P-værdi: Sandsynligheden er højre siden af den observerede værdi i chi-i-anden fordelingen med frihedsgraderne df = (r-1)(c-1), hvor r = antal rækker og C = antal søjler
5. Konklusion: Sæt den rapporterede P-værdi ind i en sammenhæng
Forkast H0 når P-værdien = significansniveauet
24. 24 Chi-i-anden bruges også til ”test af homogenitet” Chi-i-anden testen afhænger ikke af hvilken variabel der anvendes som respons variabel og hvilken der er den forklarende variabel
Når en respons variabel er identificeret og populationens betingede fordelinger er identiske, siges de at være homogene
Testen er da refereret til som en test af homogenitet
25. 25 Begrænsninger ved Chi-i-anden Testen Hvis P-værdiener meget lille er der stærk bevis mod nul hypotesen
men…
Teststørrelsen og P-værdien fortæller os ingenting om styrken af sammenhæng
26. 26 Begrænsninger ved Chi-i-anden Testen Chi-i-anden test bliver ofte misbrugt, f.eks.;
Når nogle af de forventede frekvenser er for små
Når nogle af rækkerne eller kolonnerne er afhængige stikprøver
data ikke er tilfældig udvalgte
kvantitative data bliver klassificeret som kvalitative – resulterende i tabt information
27. 27 Høj betyder ikke at der er en stærk sammenhæng En høj chi-i-anden testværdi giver stærk bevis for at der er sammenhæng mellem variablene
Det betyder ikke, at der mellem variablene er en stærk sammenhæng
Teststørrelsen indikerer mere (igennem dets P-værdi) hvor sikre vi kan være for at der er en sammehæng mellem variablene, men ikke hvor stærk denne sammenhæng er
28. 28 Øvelser 11.9, side 562
11.10, side 562