1 / 36

Grundlæggende teoretisk statistik

Grundlæggende teoretisk statistik. Kapitel E Modeller og sandsynlighedsfordelinger. Binomialfordeling. Population: N. Stikprøve: n. G: ”Mærkede”. X: Antal ”mærkede”. (n-x): Antal ”ikke-mærkede”. Tilfældig udvælgelse Uden ordning Konstant udvælgelsessandsynlighed

denver
Download Presentation

Grundlæggende teoretisk statistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Grundlæggende teoretisk statistik Kapitel E Modeller og sandsynlighedsfordelinger

  2. Binomialfordeling Population: N Stikprøve: n G: ”Mærkede” X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” • Tilfældig udvælgelse • Uden ordning • Konstant udvælgelsessandsynlighed • Stokastisk uafhængighed : ”Ikke -mærkede” p: Udvælgelsessandsynligheden =

  3. Binomialfordeling • Binomial fordelingens forudsætninger • Tilfældig udvælgelse • Uden ordning • 2 muligheder (G eller ) • Population • Uendelig, d.v.s. tilbagelægning har ingen betydning, eller • Endelig population og med tilbagelægning • Forudsætningen omkring population / tilbagelægning  • Konstant udvælgelsessandsynlighed = p • Stokastisk uafhængighed: • P(G1 ∩ G2) = P(G1) P(G2) = p·p= p2

  4. Eksempel:Hver 6. person anses for at have for højt blodtryk. Udtag tilfældigt n personer fra befolkningen, og mål antallet (X) i stikprøven med for højt blodtryk 2 udtaget 3 udtaget

  5. Hvad skal der stå på spørgsmålstegnets plads? Svar: Eksempel fortsat 4 udtaget

  6. Binomialfordeling • Binomialfordeling • Sandsynlighedsfunktionen X~b(n,p): • E(X) = n·p og VAR(X)= n·p·(1-p)

  7. Binomialfordelingers form

  8. Hypergeometrisk fordeling Population: N (Endelig) Stikprøve: n G: ”Mærkede” X: Antal ”mærkede” (n-x): Antal ”ikke-mærkede” • Tilfældig udvælgelse • Uden ordning • Uden tilbagelægning • Udvælgelsessandsynlighed ændrer sig • Stokastisk afhængighed : ”Ikke -mærkede”

  9. Hypergeometrisk fordeling • Hypergeometrisk fordeling • Tilfældig udvælgelse • Endelig population • Uden tilbagelægning • Uden ordning • 2 muligheder (G eller ) • Stokastisk afhængighed • Sandsynlighedsfunktion, P(X=x) • E(X) og VAR(X) • Approximation til binomialfordeling ved n/N<0,1 eller • n<0,1*G og n<0,1*(N-G) – se bogen side 76

  10. Hypergeometrisk fordeling • Hypergeometrisk fordeling • Sandsynlighedsfunktionen h(N,G,n): Korrektionsfaktor for store stikprøver

  11. Poisson fordeling • Poisson fordelingens karakteristika • Baserer sig på binomialfordelingen, hvor n bliver meget stor og p meget lille, således at n*p holdes konstant. • Typisk ved måling af et antal hændelser, der sker indenfor et givet tidsrum • Der er ingen øvre grænse for det antal hændelser der kan ske indenfor det givne tidspunkt • Eksempler • Antal fødsler over en dag på en given fødegang • Antal biler, der kører for stærkt kl. 16-17 på et givet stykke vej. • Kunder, der kommer frem til en kasse / går ind i en forretning de næste E minutter. • Antal henvendelser i en help-desk over en dag • Antal modtagne klager over en måned. • Typisk kommer hændelser i ’klumper’ – jf. ordsproget ”Én ulykke kommer sjældent alene”

  12. Poisson fordeling • Grundlaget er binomialfordelingen – et eksempel: • Til en tlf.central er på 180 minutter ankommet 270 kald, d.v.s. 1,5 kald pr. minut i gennemsnit • Hvad er sandsynligheden for, at der de næste 3 minutter kommer x antal kald • E(X) = 4,5 kald i de næste 3 minutter • Perioden på 3 minutter opdeles i n intervaller således at E(X)= n·p = 4,5, og således, at • n → ∞ og p → 0 • Herved konvergerer binomialfordelingen mod poisson-fordelingen med parameteren λ = n ·p = 4,5

  13. Poisson fordeling (ps) • Sandsynlighedsfunktion ps(λ) • E(X) = λ og VAR(X)= λ • Approximation fra b(n,p) til ps(λ), når • n>50 og p< 0,1 (bogen side 78), evt. skærpet til • n>100 og p<0,1 (anden litteratur)

  14. Poisson fordelingers form

  15. Opgaver • Opgavesamling i Statistik 2009 fra Statistica: • Opgave 22 – 28 • Opgave 34 spm. 1-3 og 35 spm. 1 • Evt. BWH-Opgavesamling: • Opgavesæt U2 – opgave 1 og 2 side 35

  16. Kontinuerte sandsynlighedsfordelinger • Hvad er en kontinuert variabel? • Normalfordelingen • Den centrale grænseværdisætning • Approximationer • Χ2–fordelingen (læs: chi-i-anden) • t-fordelingen • F-fordelingen

  17. Kontinuert stokastisk variabel • Stokastisk variabel • Knytter en talværdi til ethvert udfald i et tilfældigt eksperiment • Sandsynligheder knyttes til værdierne af den stokastiske variable, men da en kontinuert variabelkan antage uendelig mange værdier er sandsynligheden for en enkelt af disse naturligvis 0. • Sandsynligheder knyttes derfor til et interval • Tæthedsfunktion. • Sandsynligheder beregnes som arealer. Arealet under hele kurven er 1 (100%) • Fordelingsfunktion • Interval-beregning

  18. Forventning og varians • Begrebsapparat • μx = middelværdi på x - populationen • = gennemsnit. - stikprøven • σ2 = Variansen - populationen • s2 = Empirisk varians – (stikprøven) • Forventning og varians:

  19. Normalfordelingen, N(μ,σ2) • Kontinuert • Klokkeformet og symmetrisk • Tæthedsfunktion og fordelingsfunktion • Standardisering • Tabeller (Standardnormalfordelingen, Z~ N(0,1)) • Approximation fra b(n,p) / ps(λ) • Approximationsbetingelse VAR(X) > 9 (se side 90) • Husk evt. kontinuitetskorrektion

  20. Normalfordelingens former • Hastigheder på biler måles på en bestemt vej og tidspunkt • Hastigheden anta-ges normalfordelt med middelværdi 60 • Fordelingens form ved forskellige vari-anser er vist overfor.

  21. Standardisering – trin 1

  22. Standardisering – trin 2

  23. Standardisering

  24. Opgaver • Opgavesamling i Statistik 2009 fra Statistica: • Opgave 29 – 32 (vedr. Normalfordelingen) • BWH-Opgavesamling : • Opgavesæt U2 – opgave 3 side 35

  25. Grafisk kontrol • Normalfraktildiagram • Eksempel med de 55 indkøb i supermarked • Beregn fraktildiagram • Beregn z = NORMSINV i Excel på fraktilerne • Afsæt z og x (indkøbets størrelse) i et koordinatsystem

  26. Normalfraktildiagram • Normalfraktildiagram er en ret linie, hvis X ∼ N(, 2) • Aflæsning af  og  på X-aksen ud for z = 0 hhv. 1

  27. Opgaver • BWH-Opgavesamling : • Opgavesæt U2 – opgave 4 side 153 • Opgavesæt U3 – opgave 6 side 156

  28. Centrale grænseværdisætning (CGS) • Lad X1, X2,….. Xn være identisk fordelte og uafhængigestokastiske variable, hver med en middelværdi på  og varians 2. • Summen af de n stokastiske variable vil - når n er tilstrækkelig stor - være approximativ normalfordelt: • Gennemsnittet vil derfor være

  29. Binomialfordelingers form

  30. Poisson fordelingers form

  31. Fra b(n,p) til N(μ,σ2) – (μ=np; σ2=np(1-p)) kontinuitetskorrektion P(X14) Beregnes i a) binomialfordelingen som arealet af de blå søjler – d.v.s. området fra 13,5 og frem b) normalfordelingen som arealet under den bløde kurve fra 14 For at få samme re-sultat må beregnin-gen i Normalfordelin-gen også starte i 13,5 !

  32. Afledte fordelinger • Χ2v - fordelingen (chi-kvadrat) • tv – fordelingen • Fv - fordelingen • Sandsynligheder er afhængig af • v der kaldes antal frihedsgrader • v er afhængig af stikprøvens størrelse • Jo større v (stikprøve) jo mere kommer de 3 fordelinger til at ligne normalfordelingen, jf. CGS

  33. Χ2 – fordelingen • Bruges bl.a. til undersøgelse (test) af, om • populationsvarianser har ændret sig • empiriske data følger en given sandsynlighedsfordeling (f.eks. Normalfordelingen) • Et datamateriale er repræsentativt • Der er afhængighed i krydstabuleringer • Fordelingen er baseret på en kvadreret normalfordeling

  34. Χ2 – fordelingen

  35. T-fordelingen • Bruges bl.a. ved test på middelværdi, hvor populationsvariansen, σ2 er ukendt • T-fordelingen er symmetrisk omkring 0 • Fladere end standardnormalfordelingen, Z~N(0, σ2) • D.v.s. større standardafvigelse • Afhænger af antal frihedsgrader, v=n-1 • T-fordelingen  Z~N(0,σ2), når n∞

  36. F-fordelingen • Bruges især, når vi tester på, om der er forskel på varianserne i 2 populationer • Bemærk, at man altid sætter den største stikprøve-varians i tælleren!

More Related