250 likes | 457 Views
Forelesning 7 HSTAT1101. Ola Haug. Norsk Regnesentral. 29.09.04. Husker du?. Sannsynlighetstetthet Funksjon som beskriver sannsynlighetsfordelingen til kontinuerlige stokastiske variabler Normalfordelingen Symmetrisk, beskrevet gjennom parametrene µ og σ
E N D
Forelesning 7HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04
Husker du? • Sannsynlighetstetthet • Funksjon som beskriver sannsynlighetsfordelingen til kontinuerlige stokastiske variabler • Normalfordelingen • Symmetrisk, beskrevet gjennom parametrene µ og σ • Spiller en viktig rolle (jfr. sentralgrenseteoremet) • Normalfordelingen kan brukes som tilnærmelse til • binomisk fordeling når: • Poissonfordeling når: λ ≥ 5.
Dagens temaer • Estimering • Punktestimat • Konfidensintervall • Hyppighetsforskjeller mellom grupper • Mål på hyppighetsforskjeller • Risiko-differanse, relativ risiko og odds-ratio • Hvor sikre er estimatene av hyppighetsforskjellene? • Konfidensintervall for relativ risiko • Er forskjellene reelle? • Tester basert på risiko-differanse og analyse av kryss-tabell
Estimering • Estimere: • Anslå verdien til (ukjente) størrelser / parametere • Tilnærming: • Vi har en eller annen parameter (f. eks. en sannsynlighet eller en forventningsverdi) med ukjent verdi • Så bruker vi observerte data til å gi et anslag på parameterens verdi • Siden dataene kommer fra et utvalg som er trukket fra en populasjon, vil estimatet være beheftet med usikkerhet
Estimering • Begreper • Estimator: • En stokastisk variabel som representerer den (ukjente) størrelsen som skal estimeres • Angis ofte med ”hatt” eller asterisk ( ) • Estimat: • Anslagsverdien for den ukjente størrelsen; fås når observasjonsverdiene settes inn i estimatoren
Estimering • Punktestimat • Den ukjente størrelsen angis i form av én enkelt verdi (et punkt) beregnet fra dataene • Punktestimater er usikre! • Konfidensintervall • Et intervall som med stor sannsynlighet inneholder den sanne (ukjente) parameterverdien • Sier noe om hvor usikkert et punktestimat er • Merk! Jo sikrere punktestimatet er, desto mindre vil konfidensintervallet være.
Estimering • Estimering av en sannsynlighet p • Punktestimatet for sannsynligheten p i en binomisk forsøksrekke er gitt som p* = X / n, hvor n er antall enkeltforsøk og X er antall ”positive” utfall (suksesser). • Siden X er en stokastisk variabel, vil også p* være det • For p* kan det vises at
Estimering • Estimering av en sannsynlighet p, forts. • SD(p*) kalles standardfeilen til estimatet p* og er et uttrykk for usikkerheten i estimatet. Et estimat for SD(p*) fås ved å erstatte p (ukjent) med p* (kjent), • Anta videre at n er stor nok til at X kan tilnærmes med en normalfordeling. Da gjelder tilnærmet at
Estimering • Estimering av en sannsynlighet p, forts. • Fra tidligere vet vi at for en normalfordelt variabel gjelder at arealet under sannsynlighetstetthetskurven innenfor µ ± 1.96σ utgjør 95% av fordelingen • For p* betyr dette at • Et 95% konfidensintervall for p er gitt av p* ± 1.96sp. Andre nivåer (90%, 99%, …) på intervallet fås ved å erstatte 1.96 med persentiler i standardnormal-fordelingen svarende til nivået.
Eksempel - fjernsynsprogram • En nystartet TV-serie ønsker innblikk i sin seeroppslutning • Et utvalg på 1000 personer blir kontaktet og spurt hvorvidt de så programmet en bestemt dag. Av disse svarte 583 bekreftende. • Spørsmål: Anslå hvor stor andel av befolkningen som fulgte programmet, og gi et estimat for usikkerheten i anslaget.
Estimering • Estimering av forventningsverdien, µ, til en stokastisk variabel • Som punktestimator for forventningsverdien µ brukes oftest gjennomsnittet av alle observasjonene, • Estimering av standardavviket, σ, til en stokastisk variabel • Som punktestimator for standardavviket σ brukes gjerne empirisk standardavvik fra observasjonene,
Hyppighetsforskjeller mellom grupper • Gjennomgående eksempel hentet fra helsevesenet: • Skal vurdere om to ulike kategorier av sykepleiere har forskjellig risiko for spontanabort
Hyppighetsforskjeller mellom grupper • Modellering av spontanaborttallene • Oppfatter serien av graviditeter i de to gruppene som to binomiske forsøksrekker: • Operasjonssykepleiere n1 graviditeter, hver med sannsynlighet p1 for abort. Registrerer X1 aborter. • Andre sykepleiere n2 graviditeter, hver med sannsynlighet p2 for abort. Registrerer X2 aborter. • X1, X2 er da stokastiske variabler,
Hyppighetsforskjeller mellom grupper • Analyse av forskjeller i hyppighet av et fenomen (f.eks. spontanaborter) mellom to grupper • Mål på hyppighetsforskjeller • Risiko-differanse • Relativ risiko • Odds-ratio • Hvor sikre er estimatene av hyppighetsforskjellene? • Konfidensintervall for relativ risiko • Er forskjellene reelle? • Test basert på risiko-differanse • Test basert på analyse av kryss-tabell
Mål på hyppighetsforskjeller • Risiko-differanse • Differanse i relativ forekomst mellom de to gruppene • I vårt eksempel blir • Tolkning: Forekomsten av spontanabort blant operasjonssykepleierne er 19 prosentenheter høyere enn hos de øvrige.
Mål på hyppighetsforskjeller • Relativ risiko • Forholdet mellom relativ forekomst i de to gruppene • I vårt eksempel blir • Tolkning: Operasjonssykepleierne har over tre ganger så høy relativ forekomst av spontanaborter som de øvrige sykepleierne.
Mål på hyppighetsforskjeller • Odds-ratio • Odds: Forholdstall som angir sjanse for/mot en bestemt hendelse; ”antall gunstige” / ”antall ikke-gunstige” • Odds-ratio = forholdet mellom oddsene i de to gruppene • I vårt eksempel blir • Tolkning: Operasjonssykepleierne har fire ganger så høy odds for spontanabort som de øvrige sykepleierne.
Hvor sikre er estimatene? • Konfidensintervall for relativ risiko • Målene for hyppighetsforskjeller er punktestimater og derfor beheftet med usikkerhet • Et mye brukt mål innenfor medisin for denne usikkerheten er basert på relativ risiko RR, • Et 95% konfidensintervall for RR er gitt ved
Hvor sikre er estimatene? • Konfidensintervall for relativ risiko, forts. • I vårt eksempel har vi RR = 3.1 og slik at et 95% konfidensintervall blir Mao. er punktestimatet RR = 3.1 svært usikkert, noe som skyldes at vi har relativt få observasjoner av abort i tallmaterialet vårt.
Er forskjellene reelle? • Test basert på risiko-differanse • Stiller opp følgende test for å undersøke om det er noen forskjell i risiko mellom gruppene H0: p1 = p2 HA: p1≠ p2 • Skriver risiko-differansen som • Viser seg at er tilnærmet standardnormalfordelt under H0.
Er forskjellene reelle? • Test basert på risiko-differanse, forts. • Y kan brukes som teststørrelse: • Hvis H0 ikke er sann (p1≠ p2), vil dette vises gjennom at Y avviker ”vesentlig” fra 0 • Y har en kjent fordeling • Innsatt tallverdier fra vårt eksempel blir Y = 2.04. Vår tosidige test gir dermed en p-verdi på 4.1%. Det er derfor rimelig grunn til å hevde at operasjonssyke-pleierne har en reelt høyere risiko for spontanabort enn de andre sykepleierne. Merk! Vi kan ikke ut fra dette si noe om årsaken til avviket – dette krever ytterligere studier!
Er forskjellene reelle? • Test basert på analyse av kryss-tabell • Beregner først forventede hyppigheter som er det antall forekomster av spontanabort man ville forvente dersom begge gruppene hadde lik risiko: • Totalt 70 graviditeter (36 hos op.spl. og 34 hos andre) • Totalt 13 aborter (10 hos op.spl. og 3 hos andre) • Forventede antall aborter for hhv. op.spl. og andre: • Tilsvarende tall beregnes for graviditeter uten abort
Er forskjellene reelle? • Test basert på analyse av kryss-tabell • Ønsker å teste H0: Ingen forskjell i risiko mellom kategoriene HA: Det er en reell risikoforskjell • Betrakter observerte (O) og forventede (E) hyppigheter i alle felt utenom totalene og beregner • Under H0 er Xkji-kvadratfordelt. Ideen for kji-kvadrattesten (ensidig) er at hvis X er stor, er det et uttrykk for at det er en sammenheng mellom abort og kategori av sykepleier (stort avvik mellom observert og forventet hyppighet).
Er forskjellene reelle? • Test basert på analyse av kryss-tabell • χ2-fordelingen har én parameter: antall frihetsgrader ant. frihetsgrader = (ant. rader – 1) x (ant. kolonner -1) Tabell over fordelingen finnes på s. 306 i boka. • I vårt eksempel er x = 4.14 og antall frihetsgrader = 1. p-verdien = P(X ≥ 4.14). Finner ikke denne sannsynligheten eksakt fra tabellen, men ser at 0.05 > P(X ≥ 4.14) ( > 0.025) • På nivå 5% forkaster vi dermed H0 og hevder at operasjonssykepleierne har en økt risiko for spontanabort i forhold til de andre sykepleierne.