240 likes | 503 Views
Forelesning 8 HSTAT1101. Ola Haug. Norsk Regnesentral. 06.10.04. Husker du?. Estimering Punktestimat: ett enkelt anslag av en parameterverdi beregnet fra dataene Konfidensintervall: inneholder med stor (1- α ) sann-synlighet den ukjente parameterverdien
E N D
Forelesning 8HSTAT1101 Ola Haug Norsk Regnesentral 06.10.04
Husker du? • Estimering • Punktestimat: ett enkelt anslag av en parameterverdi beregnet fra dataene • Konfidensintervall: inneholder med stor (1-α) sann-synlighet den ukjente parameterverdien • Estimering av hyppighetsforskjeller mellom grupper • Ulike mål: Risiko-differanse, relativ risiko og odds-ratio • Usikkerhet: Konfidensintervall for relativ risiko • Signifikans: Tester basert på risiko-differanse og analyse av kryss-tabell
Dagens temaer • Gjennomsnitt av stokastiske variabler • Egenskaper • Forventningsverdi • Teststørrelse • Konfidensintervall • Hypotesetesting • Sammenlikning av forventningsverdier • Ett utvalg – to tilstander (pardata) • To forskjellige utvalg
Eksempel • Blodprosenten til r mannlige idrettsutøvere skal måles • Anta at de r utøverne danner et tilfeldig utvalg fra populasjonen av (en gruppe) idrettsutøvere • Hver av de r prøveverdiene Xi, i = 1,…, r, kan oppfattes som en trekning fra populasjonen med en forventet blodprosent µ og et visst standardavvik σ • Ut fra de r målingene dannes gjennomsnittet • Rimelig: er et mer presist anslag for forventet blodprosent, µ, i populasjonen enn én enkeltmåling Xi
Eksempel forts. • Gjentar eksperimentet i alt n ganger med r nye idrettsutøvere fra samme populasjon • For hver gang danner vi gjennomsnittlig måleverdi slik at vi totalt ender opp med n verdier • Siden vi måler på nye idrettsutøvere for hver gang, vil vi forvente at alle er litt forskjellige. Dette er uttrykk for at også gjennomsnittsverdien har en viss tilfeldighet knyttet til seg. • Hvilke egenskaper har fordelingen til ?
Gjennomsnitt av stokastiske variabler • Anta at vi har n stokastiske variabler , alle med forventningsverdi µ og standardavvik σ • For gjennomsnittet gjelder da at • Dersom i tillegg er uavhengige, så er • Merk! Standardavviket til gjennomsnittet av n variabler er altså lavere enn standardavviket til én enkeltmåling. Dette betyr at presisjonen øker ved å bruke som anslag på µ i forhold til å bruke en enkeltmåling .
Gjennomsnitt av stokastiske variabler • Fordelingen til gjennomsnittet • Dersom er uavhengige og normalfordelte variabler, så vil også være normalfordelt. • Dersom ”bare” er uavhengige stokastiske variabler (ikke nødvendigvis normalfordelte), så vil likevel tendere mot en normalfordeling såfremt gjennomsnittet baseres på mange nok enkeltmålinger (ofte er n = 10 tilstrekkelig) (pga. sentralgrense-teoremet).
Forventningsverdi • Teststørrelse • Basert på n enkeltvariabler Xi , i=1,…,n, som alle har forventningsverdi µ, så er den beste punktestimatoren for µ. • Under forutsetning om uavhengighet mellom normalfordelte (µ, σ) enkeltvariabler Xi, så er også normalfordelt med forventningsverdi µ og standardavvik slik at er standardnormalfordelt.
Forventningsverdi • Teststørrelse forts. • Hvis σ er kjent, kan Z brukes til å lage konfidensintervall og teste hypoteser om µ. • I mange tilfeller er σikke kjent. Som estimat for brukes hvor s er empirisk standardavvik (boka s. 31). • Størrelsen er (Student) t-fordelt med n-1 frihetsgrader.
Forventningsverdi • Teststørrelse, forts. • Kjært barn har mange navn: Studentfordelingen, Student t -fordelingen og t –fordelingen brukes alle om denne fordelingen • t -fordelingen er symmetrisk og har én parameter: antall frihetsgrader • Få frihetsgrader fordelingen har stor spredning • Når antall frihetsgrader er stort, er t -fordelingen tilnærmet lik normalfordelingen
Forventningsverdi Student t - fordelingen sammen med normalfordelingen
Forventningsverdi • Konfidensintervall • Basert på teststørrelsen tn-1 kan vi skrive der er 1-α/2 kvantilen i t - fordelingen med n -1 frihetsgrader. • Når σ er ukjent, er dermed et 95% konfidensintervall for forventningen µ gitt ved
Forventningsverdi Hvordan finner man 97.5% - persentilen i t -fordelingen med 26 frihetsgrader? Tabell: P(T>t) Svar: 2.056 0.025 0.975 df: antall frihetsgrader (”degrees of freedom”)
Forventningsverdi • Hypotesetesting • Tester om µ av typen (her: ensidig; tilsvarende for tosidig) kan baseres på teststørrelsen som er t – fordelt med n -1 frihetsgrader når µ = a. • p-verdien, gitt som (·2 for tosidig test), kan bestemmes fra tabelloppslag. Muligens finner vi bare en skranke for p-verdien siden tabellen kun er gjengitt for visse persentiler.
Sammenlikning av forventningsverdier • Generell situasjon: • Vi har to serier med observasjoner, og • Lar , uavhengige, og antar at både forventningene og standardavvikene er ukjente. • Målsetning: Avgjøre (via hypotesetest) om , og stille opp konfidensintervall for differansen . • Dataseriene kan komme fra objekter (f.eks. personer) i det samme utvalget målt ved to ulike tilstander eller fra to forskjellige utvalg.
Sammenlikning av forventningsverdier • Data fra ett utvalg • Pardata: Sett av målinger som beskriver alle ”måle-objektene” (f. eks. personene) ved to ulike tilstander • I denne situasjonen er n1 = n2 (= n) • Danner tallserien • Skriver videre for gjennomsnittet av differansene, og har at estimert standardavvik for blir hvor s bestemmes fra
Sammenlikning av forventningsverdier • Data fra ett utvalg – hypotesetest • Vi ønsker å teste om forventningene er forskjellige: • Til dette bruker vi teststørrelsen som er t -fordelt med n-1 frihetsgrader når H0 er sann. • p-verdien blir dermed (for en tosidig test): generell t -fordelt variabel med n-1 frihetsgrader
Sammenlikning av forventningsverdier • Data fra ett utvalg - konfidensintervall • representerer endringen i forventningsverdi fra den ene tilstanden til den andre • Et 95% konfidensintervall for er gitt ved
Sammenlikning av forventningsverdier • Data fra to forskjellige utvalg • Ser i dette tilfellet på differansen til gjennomsnittene for hvert utvalg • Krever ikke at utvalgene skal ha like mange observasjoner (n1≠ n2) • Danner nå størrelsene og med tilhørende estimerte standardavvik s1 og s2. • Forventningsverdiene i de to gruppene er
Sammenlikning av forventningsverdier • Data fra to forskjellige utvalg - hypotesetest • Vi ønsker å teste om forventningene er forskjellige: • Til dette bruker vi teststørrelsen • Hvis H0 er sann, er t –fordelt med n1 + n2 – 2 frihetsgrader
Sammenlikning av forventningsverdier • Data fra to forskjellige utvalg – konfidensintervall • Et 95% konfidensintervall for i situasjonen med to forskjellige utvalg er gitt ved