430 likes | 606 Views
Kap 10 Estimering. Sannsynlighetsregning / Statistikk. - Sannsynlighetsregning Helspesifisert modell (modellen er kjent) Binomisk p Hypergeometrisk Poisson Normalfordeling - Statistisk analyse / Statistisk inferens / Statistikk
E N D
Sannsynlighetsregning / Statistikk - Sannsynlighetsregning Helspesifisert modell (modellen er kjent) Binomisk p Hypergeometrisk Poisson Normalfordeling - Statistisk analyse / Statistisk inferens / Statistikk - Bruke observasjoner av stokastiske variabler til å få frem informasjon av generell art om virkeligheten. - Gjennomføre målinger eller undersøkelser for å skaffe informasjon om noe som er ukjent. Inference (engelsk): Slutning
Statistisk analyse / Statistisk inferens / Statistikk - Estimering - Hypotesetesting
Estimering Eks:Drosjer 1 Def Å estimere betyr å anslå eller å gjette (på begrunnet vis). Eks: Vi befinner oss i en storby og vil forsøke å estimere hvor mange drosjer m det finnes i byen ved å notere drosjenumrene vi ser: 405 280 73 440 179 Observasjoner Estimator 1 Estimat 1 405 280 73 440 179 Estimator 2 Estimat 2
Estimering Eks:Drosjer 2 Drosje-nummer: 405 280 73 440 179 Estimat 1: Estimat 2: Estimat 3: (medianestimatoren) 73 179 280 405 440 Estimat 4: (mellomromsestimator 1) 72 105 100 124 34 ? Estimat 5: (mellomromsestimator 2)
Estimering Eks:Drosjer 3 m = 550 UNr Drosje-nummer: m3 m4 m5 1 405 280 73 440 179 559 (+9) 527 (-23) 540 (-10) 2 72 132 189 314 290 377 (-173) 376 (-174) 373 (-177) 3 485 65 108 382 298 595 (+45) 581 (+31) 568 (+18) 4 450 485 56 383 399 797 (+247) 581 (+31) 535 (-15) Feilsum 474 259 220 Modellen er uniform (sannsynligheten for å observere en drosje er 1/m). Det ser ut til at m3 gir større feil enn de to andre. Det er mulig å vise at m3 gir en bredere fordeling enn m4 og m5. Britiske statistikere benyttet disse metodene til å estimere størrelsen av den tyske våpenproduksjonen under 2.verdenskrig (enhetene var påført serienummer). Estimatene var kun noen få prosent feil, mens spionasjeberegninger bommet med en faktor opp mot 4.
Estimering Egenskaper Egenskaper som en god estimator bør ha: 1. Estimatoren bør være konsistent, dvs når antall observasjoner går mot et stort tall, bør verdien av estimatoren nærme seg den sanne verdien. 2. Estimatoren bør være forventningsrett (medianrett, …), (ant observ. holdes konstant). Estimatoren vil ha en fordeling ved at nye beregninger på nye observasjonsserier gir nye estimater. Fordelingen bør ha en lokaliseringsparameter (forventning, median, …) som er lik den sanne verdien. 3. Estimatoren bør være robust mot grove feil, dvs estimatoren bør ikke være følsom mot noen få grove feil blant observasjonene. Noen få slike feil oppstår ofte i observasjonsserier (feil på måleinstrumenter, avlesningsfeil, skrivefeil, …). 4. Estimatoren bør ha minst mulig spredning. Hvis vi har flere alternative estimatorer som er omtrent like gode i pkt 1,2 og 3, bør vi velge den som har minst spredning i fordelingen til estimatoren.
Eks:Kvalitetskontroll 1 Statistikk En bedrift masseproduserer et bestemt produkt. En del av produktene gjennomgår en kvalitetskontroll. Defekte enheter blir vraket. Uavhengighet mellom de enkelte enhetene --> Binomisk modell Sannsynligheten for at en enhet er defekt settes lik p. X = Antall defekte av n kontrollerte enheter. X ~ Bin(n,p) Produkter Kontrollerte produkter
Eks:Kvalitetskontroll 2 Statistikk Bedriftens ønsker: 1. Anslå størrelsen av p. 2. Angi et intervall som inneholder p med høy grad av sikkerhet. 3. Gi svar på om man med høy grad av sikkerhet kan slutte at p <Grense. 1. Punktestimering / Estimering. Anslå størrelsen av en eller flere ukjente parametre. 2. Intervallestimering. Angi et intervall som med høy grad av sikkerhet inneholder en ukjent parameter. 3. Hypotesetesting. Ta stilling til en påstand (hypotese) om en ukjent parameter.
Eks:Kvalitetskontroll 3 Punktestimering A = Enheten er defekt P = P(A) X = Antall defekte av n kontrollerte enheter X ~ Bin(n,p) n = 200 X = 17 Det er rimelig å bruke den relative hyppigheten av A som anslagsverdi eller estimat for sannsynligheten til A. Estimator
Eks:Kvalitetskontroll 4 Punktestimering Forventningsrett Var avtar for økende n
Bevis for konstistens Punktestimering Konsistenst estimator Tsjebysjeffs ulikhet
Eks:Politisk gallup 1 Punktestimering N = Antall elementer i populasjonen = 3 millioner n = Antall velgere som blir trukket ut og spurt om partistemming = 1200 Y = Antall spurte som vil stemme på Arbeiderpartiet
Eks:Politisk gallup 2 Punktestimering N = Antall elementer i populasjonen = 3 millioner n = Antall velgere som blir trukket ut og spurt om partistemming = 1200 Y = Antall spurte som vil stemme på Arbeiderpartiet = 432 Forventningsrett Var avtar for økende n
Punktestimering Oppsummering Vi har en ukjent parameter i en modell som skal estimeres på grunnlag av observasjoner av en eller flere stokastiske variabler X1, X2, …, Xn. Krav til en god estimator
Målemetoden Definisjon En ukjent størrelse skal estimeres på grunnlag av n målinger av X1, X2, …, Xn. Eksempler: - Måling av pH-verdier i et fiskevann - Måling av vekt for oppdrettslaks i et basseng - Måling av alkoholkonsentrasjon i blod - Måling av fettinnhold i en matvare - Måling av strekkstyrken i en type tau En standard modell for slike forsøk er den såkalte målemodellen, hvor vi antar følgende:
Målemetoden Estimatorfor
Målemetoden Estimatorfor 2 Standardestimator for : Gjennomsnitt X Standardestimator for 2 : Empirisk varians S2
Målemetoden Bevis for underestimering
Målemetoden EksempelOppdrettslaks 1 En fiskeoppdretter har et stort antall laks i et basseng. Han vil estimere gjennomsnittsverdien for laksen, og tar opp 13 laks og veier disse. De målte verdiene antas å være uavhengige og identisk fordelte stokastiske variabler med forventing og varians 2 . Både og 2 er ukjente parametre.
Intervallestimering Definisjon Hvor godt treffer et estimat den ukjente parameteren? Hvor stor feilmargin må vi regne med? Må finne en metode til å angi et intervall som inneholder en ukjent parameter med høy grad av sikkerhet. Et slikt intervall kaller vi et konfidensintervall, og slik estimering kalles intervallestimering. Konfidensintervall
Intervallestimering Målemetoden 1 En ukjent størrelse skal estimeres på grunnlag av n målinger av X1, X2, …, Xn. Vi antar at X-ene er uavhengige og identisk fordelte variabler med forventning og varians 2. Vi antar videre at X-ene er normalfordelte og at 2 er kjent.
Intervallestimering Målemetoden 2
Intervallestimering EksempelOppdrettslaks 2 En fiskeoppdretter har et stort antall laks i et basseng. Han vil estimere gjennomsnittsverdien for laksen, og tar opp 13 laks og veier disse. De målte verdiene antas å være uavhengige og identiske fordelte stokastiske variabler med forventing og varians 2 . er ukjent, men vi antar at 2 er kjent 2 = 0.70 Et 95% konfidensintervall for gjennomsnittsvekten er gitt ved:
Kvantiler Konfidensintervallet med sikkerhet 95% er på formen: Tallet 1.96 kalles et kvantil i normalfordelingen. 0.95 N(0,1) 0.025 0 1.96
Konfidensintervall Generelt formålemetoden 1 Generelt er et konfidensintervall for gitt ved: der c bestemmes slik at intervallet får den ønskede sikkerhet. De mest brukte kombinasjoner av c-verdier:
Konfidensintervall Generelt formålemetoden 2 Konfidensintervallet for med sikkerhet 100(1-) % er gitt ved: Sammenheng mellom kvantil og sikkerhet: 1- N(0,1) /2 /2 0 -u /2 u /2
Konfidensintervall EksempelOppdrettslaks 3 Konfidensintervallet med sikkerhet 100(1-)for gjennomsnittsvekten for laksen er gitt ved: 90% konfidensintervall u/2 = u0.05 = 1.654 [3.819, 4.457] 95% konfidensintervall u/2 = u0.025 = 1.96 [3.757, 4.519] 99% konfidensintervall u/2 = u0.005 = 2.576 [3.638, 4.638]
Konfidensintervall Intervall-estimeringgenerelt Tommelfingerregel:
Konfidensintervall Eksempel:Politisk gallup 3 = Andelen i populasjonen av velgere som vil stemme AP n = 1200 = Uttrukne velgere Y = 432 = Antall av de uttrukne som stemmer AP Y er hypergeometrisk fordelt, og vi benytter normaltilnærmelsen:
Konfidensintervall Eksempel:Politisk gallup 4 = Andelen i populasjonen av velgere som vil stemme AP n = 1200 = Uttrukne velgere Y = 432 = Antall av de uttrukne som stemmer AP Y er hypergeometrisk fordelt, og vi benytter normaltilnærmelsen:
Konfidensintervall Eksempel:Kvalitetskontroll 5 Kvalitetskontroll av et produkt. p = Sannsynligheten for at en tilfeldig enhet fra produksjonen er defekt. n = 200 = Antall kontrollerte enheter X = 17 = Antall defekte
Utvalgsstørrelse Def Hvor mange observasjoner trenger vi? Det finnes ikke noe generelt svar på spørsmålet. Svaret er avhengig av bl.a. krav til sikkerhet og presisjon. Generelt kan en si at jo flere observasjoner, desto bedre estimering. Ressursmessige grunner medfører at vi ofte bestemmer minste utvalgsstørrelse eller minste antall observasjoner som er nødvendig for å tilfredsstille gitte krav.
Utvalgsstørrelse Målemodellen Konfidensintervallet for med sikkerhet 100(1-)% er gitt ved: Krav: Intervallet skal være hvor d er en gitt verdi: Minste antall observasjoner n: Minste utvalgsstørrelse n avhenger av: - d Fastsatt intervall-lengde - u/2 Sikkerhet - Standardavvik
Utvalgsstørrelse Målemodellen Eks: Oppdrettslaks 4 Antall laks som må tas opp og veies for å få et 95% konfidensintervall på formen:
Utvalgsstørrelse Hypergeometrisk modell Både i hypergeometrisk modell og binomisk modell inngår den parameteren vi estimerer ( og p) i standardavviket til estimatoren. I intervallgrensene må vi da erstatte standardavviket med det estimerte standardavviket, og det kompliserer oppgaven med bestemmelse av minste utvalgsstørrelse i forhold til kjent standardavvik til estimatoren. N = Antall enheter i populasjonen M = Antall enheter i populasjonen som har egenskap A n = Utvalgsstørrelse Y = Antall enheter med egenskap A = M/N = Andel av enheter med egenskap A i populasjonen. Estimatoren Estimatorens fordeling Tilnærmet konfidensintervall for
Utvalgsstørrelse Hypergeometrisk modellEks: Politisk gallup 5 n = 1200 = Utvalgsstørrelse YAP = 432 = Antall stemmer til Arbeiderpartiet YSV = 78 = Antall stemmer til Sosialistisk venstreparti AP = = Andel av enheter i populasjonen som vil stemme på Arbeiderpartiet SV = = Andel av enheter i populasjonen som vil stemme på Sosialistisk venstreparti Estimert oppslutning til AP: Estimert oppslutning til SV: Lengden av konfidensintervallet for avhenger av uttrykket: Ulike estimerte parameterverdier gir ulik lengde på konfidensintervallet når utvalgsstørrelsen er fast.
Utvalgsstørrelse Hypergeometrisk modellEks: Politisk gallup 6 Krav: Feilmarginen for intervallet skal være en gitt verdi d:
Utvalgsstørrelse Hypergeometrisk modellEks: Politisk gallup 7 Lengden av konfidensintervallet for avhenger av uttrykket: 1 2
Utvalgsstørrelse Hypergeometrisk modellEks: Politisk gallup 8 Antall personer som må være med i en meningsmåling: Utvalgsstørrelse for alle partier med en oppslutning rundt 50%: (vil omfatte alle partier) Utvalgsstørrelse for partier med en oppslutning rundt 40%: Utvalgsstørrelse for partier med en oppslutning rundt 10%:
OppsummeringEstimering Fordeling Normal Estimator Normal
1- OppsummeringKonfidensintervall N(0,1) /2 /2 0 -u /2 u /2