370 likes | 899 Views
Grundlæggende teoretisk statistik. Kapitel E Modeller og sandsynlighedsfordelinger. Binomialfordeling. Population: N. Stikprøve: n. G: ”Mærkede”. X: Antal ”mærkede”. (n-x): Antal ”ikke-mærkede”. Tilfældig udvælgelse Uden ordning Konstant udvælgelsessandsynlighed
E N D
Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger
Binomialfordeling Population: N Stikprøve: n G: ”Mærkede” X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” • Tilfældig udvælgelse • Uden ordning • Konstant udvælgelsessandsynlighed • Stokastisk uafhængighed : ”Ikke -mærkede” p: Udvælgelsessandsynligheden =
Binomialfordeling • Binomial fordelingens forudsætninger • Tilfældig udvælgelse • Uden ordning • 2 muligheder (G eller ) • Population • Uendelig, d.v.s. tilbagelægning har ingen betydning, eller • Endelig population og med tilbagelægning • Forudsætningen omkring population / tilbagelægning • Konstant udvælgelsessandsynlighed = p • Stokastisk uafhængighed: • P(G1 ∩ G2) = P(G1) P(G2) = p·p= p2
Eksempel:Hver 6. person anses for at have for højt blodtryk. Udtag tilfældigt n personer fra befolkningen, og mål antallet (X) i stikprøven med for højt blodtryk 2 udtaget 3 udtaget
Hvad skal der stå på spørgsmålstegnets plads? Svar: Eksempel fortsat 4 udtaget
Binomialfordeling • Binomialfordeling • Sandsynlighedsfunktionen X~b(n,p): • E(X) = n·p og VAR(X)= n·p·(1-p)
Hypergeometrisk fordeling Population: N (Endelig) Stikprøve: n G: ”Mærkede” X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” • Tilfældig udvælgelse • Uden ordning • Uden tilbagelægning • Udvælgelsessandsynlighed ændrer sig • Stokastisk afhængighed : ”Ikke -mærkede”
Hypergeometrisk fordeling • Hypergeometrisk fordeling • Tilfældig udvælgelse • Endelig population • Uden tilbagelægning • Uden ordning • 2 muligheder (G eller ) • Stokastisk afhængighed • Sandsynlighedsfunktion, P(X=x) • E(X) og VAR(X) • Approximation til binomialfordeling ved n/N<0,1 eller • n<0,1*G og n<0,1*(N-G) – se bogen side 76
Hypergeometrisk fordeling • Hypergeometrisk fordeling • Sandsynlighedsfunktionen h(N,G,n): Korrektionsfaktor for store stikprøver
Poisson fordeling • Poisson fordelingens karakteristika • Baserer sig på binomialfordelingen, hvor n bliver meget stor og p meget lille, således at n*p holdes konstant. • Typisk ved måling af et antal hændelser, der sker indenfor et givet tidsrum • Der er ingen øvre grænse for det antal hændelser der kan ske indenfor det givne tidspunkt • Eksempler • Antal fødsler over en dag på en given fødegang • Antal biler, der kører for stærkt kl. 16-17 på et givet stykke vej. • Kunder, der kommer frem til en kasse / går ind i en forretning de næste E minutter. • Antal henvendelser i en help-desk over en dag • Antal modtagne klager over en måned. • Typisk kommer hændelser i ’klumper’ – jf. ordsproget ”Én ulykke kommer sjældent alene”
Poisson fordeling • Grundlaget er binomialfordelingen – et eksempel: • Til en tlf.central er på 180 minutter ankommet 270 kald, d.v.s. 1,5 kald pr. minut i gennemsnit • Hvad er sandsynligheden for, at der de næste 3 minutter kommer x antal kald • E(X) = 4,5 kald i de næste 3 minutter • Perioden på 3 minutter opdeles i n intervaller således at E(X)= n·p = 4,5, og således, at • n → ∞ og p → 0 • Herved konvergerer binomialfordelingen mod poisson-fordelingen med parameteren λ = n ·p = 4,5
Poisson fordeling (ps) • Sandsynlighedsfunktion ps(λ) • E(X) = λ og VAR(X)= λ • Approximation fra b(n,p) til ps(λ), når • n>50 og p< 0,1 (bogen side 78), evt. skærpet til • n>100 og p<0,1 (anden litteratur)
Opgaver • Opgavesamling i Statistik 2009 fra Statistica: • Opgave 22 – 28 • Opgave 34 spm. 1-3 og 35 spm. 1 • Evt. BWH-Opgavesamling: • Opgavesæt U2 – opgave 1 og 2 side 35
Kontinuerte sandsynlighedsfordelinger • Hvad er en kontinuert variabel? • Normalfordelingen • Den centrale grænseværdisætning • Approximationer • Χ2–fordelingen (læs: chi-i-anden) • t-fordelingen • F-fordelingen
Kontinuert stokastisk variabel • Stokastisk variabel • Knytter en talværdi til ethvert udfald i et tilfældigt eksperiment • Sandsynligheder knyttes til værdierne af den stokastiske variable, men da en kontinuert variabelkan antage uendelig mange værdier er sandsynligheden for en enkelt af disse naturligvis 0. • Sandsynligheder knyttes derfor til et interval • Tæthedsfunktion. • Sandsynligheder beregnes som arealer. Arealet under hele kurven er 1 (100%) • Fordelingsfunktion • Interval-beregning
Forventning og varians • Begrebsapparat • μx = middelværdi på x - populationen • = gennemsnit. - stikprøven • σ2 = Variansen - populationen • s2 = Empirisk varians – (stikprøven) • Forventning og varians:
Normalfordelingen, N(μ,σ2) • Kontinuert • Klokkeformet og symmetrisk • Tæthedsfunktion og fordelingsfunktion • Standardisering • Tabeller (Standardnormalfordelingen, Z~ N(0,1)) • Approximation fra b(n,p) / ps(λ) • Approximationsbetingelse VAR(X) > 9 (se side 90) • Husk evt. kontinuitetskorrektion
Normalfordelingens former • Hastigheder på biler måles på en bestemt vej og tidspunkt • Hastigheden anta-ges normalfordelt med middelværdi 60 • Fordelingens form ved forskellige vari-anser er vist overfor.
Opgaver • Opgavesamling i Statistik 2009 fra Statistica: • Opgave 29 – 32 (vedr. Normalfordelingen) • BWH-Opgavesamling : • Opgavesæt U2 – opgave 3 side 35
Grafisk kontrol • Normalfraktildiagram • Eksempel med de 55 indkøb i supermarked • Beregn fraktildiagram • Beregn z = NORMSINV i Excel på fraktilerne • Afsæt z og x (indkøbets størrelse) i et koordinatsystem
Normalfraktildiagram • Normalfraktildiagram er en ret linie, hvis X ∼ N(, 2) • Aflæsning af og på X-aksen ud for z = 0 hhv. 1
Opgaver • BWH-Opgavesamling : • Opgavesæt U2 – opgave 4 side 153 • Opgavesæt U3 – opgave 6 side 156
Centrale grænseværdisætning (CGS) • Lad X1, X2,….. Xn være identisk fordelte og uafhængigestokastiske variable, hver med en middelværdi på og varians 2. • Summen af de n stokastiske variable vil - når n er tilstrækkelig stor - være approximativ normalfordelt: • Gennemsnittet vil derfor være
Fra b(n,p) til N(μ,σ2) – (μ=np; σ2=np(1-p)) kontinuitetskorrektion P(X14) Beregnes i a) binomialfordelingen som arealet af de blå søjler – d.v.s. området fra 13,5 og frem b) normalfordelingen som arealet under den bløde kurve fra 14 For at få samme re-sultat må beregnin-gen i Normalfordelin-gen også starte i 13,5 !
Afledte fordelinger • Χ2v - fordelingen (chi-kvadrat) • tv – fordelingen • Fv - fordelingen • Sandsynligheder er afhængig af • v der kaldes antal frihedsgrader • v er afhængig af stikprøvens størrelse • Jo større v (stikprøve) jo mere kommer de 3 fordelinger til at ligne normalfordelingen, jf. CGS
Χ2 – fordelingen • Bruges bl.a. til undersøgelse (test) af, om • populationsvarianser har ændret sig • empiriske data følger en given sandsynlighedsfordeling (f.eks. Normalfordelingen) • Et datamateriale er repræsentativt • Der er afhængighed i krydstabuleringer • Fordelingen er baseret på en kvadreret normalfordeling
T-fordelingen • Bruges bl.a. ved test på middelværdi, hvor populationsvariansen, σ2 er ukendt • T-fordelingen er symmetrisk omkring 0 • Fladere end standardnormalfordelingen, Z~N(0, σ2) • D.v.s. større standardafvigelse • Afhænger af antal frihedsgrader, v=n-1 • T-fordelingen Z~N(0,σ2), når n∞
F-fordelingen • Bruges især, når vi tester på, om der er forskel på varianserne i 2 populationer • Bemærk, at man altid sætter den største stikprøve-varians i tælleren!