1 / 25

Forelesning 7 HSTAT1101

Forelesning 7 HSTAT1101. Ola Haug. Norsk Regnesentral. 29.09.04. Husker du?. Sannsynlighetstetthet Funksjon som beskriver sannsynlighetsfordelingen til kontinuerlige stokastiske variabler Normalfordelingen Symmetrisk, beskrevet gjennom parametrene µ og σ

hank
Download Presentation

Forelesning 7 HSTAT1101

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Forelesning 7HSTAT1101 Ola Haug Norsk Regnesentral 29.09.04

  2. Husker du? • Sannsynlighetstetthet • Funksjon som beskriver sannsynlighetsfordelingen til kontinuerlige stokastiske variabler • Normalfordelingen • Symmetrisk, beskrevet gjennom parametrene µ og σ • Spiller en viktig rolle (jfr. sentralgrenseteoremet) • Normalfordelingen kan brukes som tilnærmelse til • binomisk fordeling når: • Poissonfordeling når: λ ≥ 5.

  3. Dagens temaer • Estimering • Punktestimat • Konfidensintervall • Hyppighetsforskjeller mellom grupper • Mål på hyppighetsforskjeller • Risiko-differanse, relativ risiko og odds-ratio • Hvor sikre er estimatene av hyppighetsforskjellene? • Konfidensintervall for relativ risiko • Er forskjellene reelle? • Tester basert på risiko-differanse og analyse av kryss-tabell

  4. Estimering • Estimere: • Anslå verdien til (ukjente) størrelser / parametere • Tilnærming: • Vi har en eller annen parameter (f. eks. en sannsynlighet eller en forventningsverdi) med ukjent verdi • Så bruker vi observerte data til å gi et anslag på parameterens verdi • Siden dataene kommer fra et utvalg som er trukket fra en populasjon, vil estimatet være beheftet med usikkerhet

  5. Estimering • Begreper • Estimator: • En stokastisk variabel som representerer den (ukjente) størrelsen som skal estimeres • Angis ofte med ”hatt” eller asterisk ( ) • Estimat: • Anslagsverdien for den ukjente størrelsen; fås når observasjonsverdiene settes inn i estimatoren

  6. Estimering • Punktestimat • Den ukjente størrelsen angis i form av én enkelt verdi (et punkt) beregnet fra dataene • Punktestimater er usikre! • Konfidensintervall • Et intervall som med stor sannsynlighet inneholder den sanne (ukjente) parameterverdien • Sier noe om hvor usikkert et punktestimat er • Merk! Jo sikrere punktestimatet er, desto mindre vil konfidensintervallet være.

  7. Estimering • Estimering av en sannsynlighet p • Punktestimatet for sannsynligheten p i en binomisk forsøksrekke er gitt som p* = X / n, hvor n er antall enkeltforsøk og X er antall ”positive” utfall (suksesser). • Siden X er en stokastisk variabel, vil også p* være det • For p* kan det vises at

  8. Estimering • Estimering av en sannsynlighet p, forts. • SD(p*) kalles standardfeilen til estimatet p* og er et uttrykk for usikkerheten i estimatet. Et estimat for SD(p*) fås ved å erstatte p (ukjent) med p* (kjent), • Anta videre at n er stor nok til at X kan tilnærmes med en normalfordeling. Da gjelder tilnærmet at

  9. Estimering • Estimering av en sannsynlighet p, forts. • Fra tidligere vet vi at for en normalfordelt variabel gjelder at arealet under sannsynlighetstetthetskurven innenfor µ ± 1.96σ utgjør 95% av fordelingen • For p* betyr dette at • Et 95% konfidensintervall for p er gitt av p* ± 1.96sp. Andre nivåer (90%, 99%, …) på intervallet fås ved å erstatte 1.96 med persentiler i standardnormal-fordelingen svarende til nivået.

  10. Eksempel - fjernsynsprogram • En nystartet TV-serie ønsker innblikk i sin seeroppslutning • Et utvalg på 1000 personer blir kontaktet og spurt hvorvidt de så programmet en bestemt dag. Av disse svarte 583 bekreftende. • Spørsmål: Anslå hvor stor andel av befolkningen som fulgte programmet, og gi et estimat for usikkerheten i anslaget.

  11. Estimering • Estimering av forventningsverdien, µ, til en stokastisk variabel • Som punktestimator for forventningsverdien µ brukes oftest gjennomsnittet av alle observasjonene, • Estimering av standardavviket, σ, til en stokastisk variabel • Som punktestimator for standardavviket σ brukes gjerne empirisk standardavvik fra observasjonene,

  12. Hyppighetsforskjeller mellom grupper • Gjennomgående eksempel hentet fra helsevesenet: • Skal vurdere om to ulike kategorier av sykepleiere har forskjellig risiko for spontanabort

  13. Hyppighetsforskjeller mellom grupper • Modellering av spontanaborttallene • Oppfatter serien av graviditeter i de to gruppene som to binomiske forsøksrekker: • Operasjonssykepleiere n1 graviditeter, hver med sannsynlighet p1 for abort. Registrerer X1 aborter. • Andre sykepleiere n2 graviditeter, hver med sannsynlighet p2 for abort. Registrerer X2 aborter. • X1, X2 er da stokastiske variabler,

  14. Hyppighetsforskjeller mellom grupper • Analyse av forskjeller i hyppighet av et fenomen (f.eks. spontanaborter) mellom to grupper • Mål på hyppighetsforskjeller • Risiko-differanse • Relativ risiko • Odds-ratio • Hvor sikre er estimatene av hyppighetsforskjellene? • Konfidensintervall for relativ risiko • Er forskjellene reelle? • Test basert på risiko-differanse • Test basert på analyse av kryss-tabell

  15. Mål på hyppighetsforskjeller • Risiko-differanse • Differanse i relativ forekomst mellom de to gruppene • I vårt eksempel blir • Tolkning: Forekomsten av spontanabort blant operasjonssykepleierne er 19 prosentenheter høyere enn hos de øvrige.

  16. Mål på hyppighetsforskjeller • Relativ risiko • Forholdet mellom relativ forekomst i de to gruppene • I vårt eksempel blir • Tolkning: Operasjonssykepleierne har over tre ganger så høy relativ forekomst av spontanaborter som de øvrige sykepleierne.

  17. Mål på hyppighetsforskjeller • Odds-ratio • Odds: Forholdstall som angir sjanse for/mot en bestemt hendelse; ”antall gunstige” / ”antall ikke-gunstige” • Odds-ratio = forholdet mellom oddsene i de to gruppene • I vårt eksempel blir • Tolkning: Operasjonssykepleierne har fire ganger så høy odds for spontanabort som de øvrige sykepleierne.

  18. Hvor sikre er estimatene? • Konfidensintervall for relativ risiko • Målene for hyppighetsforskjeller er punktestimater og derfor beheftet med usikkerhet • Et mye brukt mål innenfor medisin for denne usikkerheten er basert på relativ risiko RR, • Et 95% konfidensintervall for RR er gitt ved

  19. Hvor sikre er estimatene? • Konfidensintervall for relativ risiko, forts. • I vårt eksempel har vi RR = 3.1 og slik at et 95% konfidensintervall blir Mao. er punktestimatet RR = 3.1 svært usikkert, noe som skyldes at vi har relativt få observasjoner av abort i tallmaterialet vårt.

  20. Er forskjellene reelle? • Test basert på risiko-differanse • Stiller opp følgende test for å undersøke om det er noen forskjell i risiko mellom gruppene H0: p1 = p2 HA: p1≠ p2 • Skriver risiko-differansen som • Viser seg at er tilnærmet standardnormalfordelt under H0.

  21. Er forskjellene reelle? • Test basert på risiko-differanse, forts. • Y kan brukes som teststørrelse: • Hvis H0 ikke er sann (p1≠ p2), vil dette vises gjennom at Y avviker ”vesentlig” fra 0 • Y har en kjent fordeling • Innsatt tallverdier fra vårt eksempel blir Y = 2.04. Vår tosidige test gir dermed en p-verdi på 4.1%. Det er derfor rimelig grunn til å hevde at operasjonssyke-pleierne har en reelt høyere risiko for spontanabort enn de andre sykepleierne. Merk! Vi kan ikke ut fra dette si noe om årsaken til avviket – dette krever ytterligere studier!

  22. Er forskjellene reelle? • Test basert på analyse av kryss-tabell • Beregner først forventede hyppigheter som er det antall forekomster av spontanabort man ville forvente dersom begge gruppene hadde lik risiko: • Totalt 70 graviditeter (36 hos op.spl. og 34 hos andre) • Totalt 13 aborter (10 hos op.spl. og 3 hos andre) • Forventede antall aborter for hhv. op.spl. og andre: • Tilsvarende tall beregnes for graviditeter uten abort

  23. Er forskjellene reelle?

  24. Er forskjellene reelle? • Test basert på analyse av kryss-tabell • Ønsker å teste H0: Ingen forskjell i risiko mellom kategoriene HA: Det er en reell risikoforskjell • Betrakter observerte (O) og forventede (E) hyppigheter i alle felt utenom totalene og beregner • Under H0 er Xkji-kvadratfordelt. Ideen for kji-kvadrattesten (ensidig) er at hvis X er stor, er det et uttrykk for at det er en sammenheng mellom abort og kategori av sykepleier (stort avvik mellom observert og forventet hyppighet).

  25. Er forskjellene reelle? • Test basert på analyse av kryss-tabell • χ2-fordelingen har én parameter: antall frihetsgrader ant. frihetsgrader = (ant. rader – 1) x (ant. kolonner -1) Tabell over fordelingen finnes på s. 306 i boka. • I vårt eksempel er x = 4.14 og antall frihetsgrader = 1. p-verdien = P(X ≥ 4.14). Finner ikke denne sannsynligheten eksakt fra tabellen, men ser at 0.05 > P(X ≥ 4.14) ( > 0.025) • På nivå 5% forkaster vi dermed H0 og hevder at operasjonssykepleierne har en økt risiko for spontanabort i forhold til de andre sykepleierne.

More Related