1 / 18

Dagens program

Informationer Vejledning i fb.m. projekt 3 26/11 eller 3/11 χ 2 -test (chi-i-anden) Goodness-of-Fit test Test of Independence Øvelser Forbered forsvar og kritik af projekt 2. I gang med projekt 3 (projektplan, problem-stilling, dataindsamling, ...). Dagens program.

winda
Download Presentation

Dagens program

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Informationer Vejledning i fb.m. projekt 326/11 eller 3/11 χ2-test (chi-i-anden) Goodness-of-Fit test Test of Independence Øvelser Forbered forsvar og kritik af projekt 2. I gang med projekt 3 (projektplan, problem-stilling, dataindsamling, ...) Dagens program

  2. Goodness-of-Fit (GOF) test

  3. Goodness-of-Fit (GOF) test • Eksempel på problemstilling • Der er gennemført en brugerundersøgelse med bl.a. nedenstående spørgsmål. • Undersøg først om stikprøven er repræsentativ.

  4. Goodness-of-Fit test • Forudsætninger • Simpel tilfældig udvælgelse. • Mindst fem forventede observationer i cellerne • Hypoteser • H0: Observerede = Faktiske • Ha: Observerede ≠ Faktiske • Beregning af teststørrelse • Vi kender det faktisk observerede antal observationer i hver celle • Vi beregner det forventede antal observationer i hver celle (= det antal, der vil forekomme, hvis nul hypotesen er sand).

  5. 4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Omregning af Chi-i-anden til en P-værdi • Antallet af frihedsgrader i en tabel med 1 række (eller 1 kolonne) er lig antal celler minus 1, dvs. df = antal rækker – 1. • Ved opslag i Excel benyttes CHIDIST, der returnerer arealet til højre for den observerede teststørrelse. 5

  6. Konklusion: Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 0,65 og 2 frihedsgrader bliver P-værdien 72%. Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Forskellene i fordelingerne (de faktiske og de observerede) kan skyldes tilfældigheder som følge af stikprøven. Trin 5: Konklusion 6

  7. ITU studerende, som kommer med en bachelor fra et andet universitet, fordeler sig som følger mht. baggrund: 20% kommer fra naturvidenskabelige uddannelser 40% fra samfundsvidenskabelige uddannelser 40% fra humanistiske uddannelser Der er gennemført en undersøgelse blandt ITU studerende. Stikprøven på 42 studerende har følgende sammensætning: 7 fra naturvidenskabelige uddannelser (17%) 19 fra samfundsvidenskabelige uddannelser (45%) 16 fra humanistiske uddannelser (38%) Er stikprøven repræsentativ for populationen? Opgave i Godness-of-Fit test 7

  8. Test of Independence Afhænger brugervenligheden, BV, af antal billeder på en hjemmeside? • Tabelopstilling • Responsvariablen (den afhængige) sættes i kolonnerne. • Den forklarende variabel (den uafhængige) sættes i rækkerne. • Beregn betingede procentfordelinger. • Vis antallet som procenterne er beregnet på. 8

  9. Test of Independence Afhænger brugervenligheden, BV, af antal billeder på en hjemmeside? Definition To variable er uafhængige, hvis de betingede fordelinger er ens (statistisk set) i populationen. To variable er afhængige, hvis de betingede fordelinger afviger betydeligt fra hinanden (statistisk set) i populationen. Tabellen viser resultater fra en stikprøve og de afviger mere eller mindre fra populationens. 9

  10. Test of Independence • Forudsætninger • Simpel tilfældig udvælgelse. • Mindst fem forventede observationer i cellerne • Hypoteser • H0: De to variable er uafhængige • Ha: De to variable er afhængige • Beregning af teststørrelse • Vi kender det faktisk observerede antal observationer i hver celle • Vi beregner det forventede antal observationer i hver celle for det tilfælde, at de to variable er uafhængige. 10

  11. Det forventede antal observationer • Sandsynligheder • P(Mange billeder) = 131/180, P(Få billeder) = 49/180 • P(Lav BV) = 89/180, P(Middel) = 73/180, P(Høj BV) = 18/180 • Forventede antal observationer • P(Mange) x P(Lav BV) x 180 = (131/180) x (89/180) x 180 =(131 x 89) / 180 = 64,77 • Hvis de to variable er uafhængige, forventer vi at finde 64,77 ≈ 65 observationer i celle 1 (hvor vi faktisk observerer 60). • Generel skivemåde: 11

  12. 3. Beregning af Chi-i-anden teststørrelsen Chi-i-anden beregnes for hver celle. Chi-i-anden teststørrelsen er summen heraf. Den sammenfatter, hvor langt de faktiske antal ligger fra de forventede antal (nul-hypotesens ”forventning”). Test of Independence • χ2 for den første celle: • (60 – 64,8) = -4,8 • (-4,8)2 = 23,04 • 23,04 / 64,8 = 0,35 • Sum (0,35 +...+ 0,74) = 2,87

  13. 4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Antallet beregnes efter formlen: df = (r-1) x (k-1)=(2-1) x (3-1) = 2. P findes ved opslag i Excel. På dansk hedder funktionen CHI2.FORD.RT. Denne returnerer sandsynligheden i den højre hale (RT=right tail). Dvs. P(X2>obs.værdi), ssh. for den observerede værdi af teststørrelse eller større. Test of Independence 13

  14. Konklusion: Med P værdi på 24% opretholdes H0. Det vil sige, at brugervenligheden ikke kan formodes at afhænge af billed-brugen. Forskellene i fordelingerne kan skyldes tilfældigheder som følge af stikprøven. Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 2,87 og 2 frihedsgrader bliver P-værdien 24%. Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Hvad sker der med chi-i-anden teststørrelsen, hvis to kolonner byttes om? Hvad forskellen på Goodness of Fit test og Test of Independence? Test of Independence 14

  15. Opgave i Test of Independence Har personer, der angrer, større risiko for at få hjertesygdomme end personer, der ikke angrer? En undersøgelse har belyst risikoen for en bestemt type hjertesygdom. • Opgaver • Beregn de betingede fordelinger og beskriv i ord, hvad du ser. • Test (slavisk, dvs. i de fem trin) om der er sammenhæng (asso-ciation) mellem responsvariablen og den forklarende variabel. • Skriv en konklusion • Kilde: http://www.sjsu.edu/faculty/gerstman/StatPrimer/crosstabs-exercises.htm (opgave 10.11, løsning i bunden af siden) 15

  16. Falgruber i fb.m. Chi-i-anden test ”Misbrug” af chi-i-anden testen Data skal være genereret ved simpel tilfældig udvælgelse. Testen forudsætter, at de forventede antal > 5. Rækker og kolonner skal være uafhængige stikprøver (Kategorisering af kvantitative data).

  17. Goodness of fit test • df for én række = (antal celler – 1) • df = (3-1) = 2 • P(X2>0,8) = 67 % • Besvarelserne i bortfaldsundersøgelsen antages af være repræsentative. 17

  18. Opsamling: Test og teststørrelser

More Related