400 likes | 709 Views
Statistik Lektion 2. Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable. Repetition. ∗. Stikprøve: . ∙. Population. ∙. ∗. ∗. ∙. ∙. ∙. ∙. ∗. ∙. ∙. ∙. ∙. ∗. ∗. ∙. ∙. Population Populationsstørrelse N Populationsmiddelværdi μ Populationsvarians σ 2.
E N D
StatistikLektion 2 Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable
Repetition ∗ Stikprøve: ∙ Population ∙ ∗ ∗ ∙ ∙ ∙ ∙ ∗ ∙ ∙ ∙ ∙ ∗ ∗ ∙ ∙ • Population • Populationsstørrelse N • Populationsmiddelværdi μ • Populationsvarians σ2 • Stikprøve • Stikprøvestørrelse n • Stikprøvemiddelværdi • Stikprøvevarians s2
S A B A ∩ B 1, 2 3 4, 5 6 Repetition • Udfaldsrum S • Hændelse A⊆ S • Simpel hændelse Oi • Regler: • 0 ≤ P(A) ≤ 1 • P(A) = Σ P(Oi) • P(S) = 1 • Regler: • P(∅) = 0 • P(A⋃B) = P(A) + P(B) - P(A⋂B) • P(A) = 1 - P(A)
Lov om Total Sandsynlighed • Lov om total sandsynlighed: • Vha. B kan vi opdele A i to disjunkte dele. _ B B A
Eksempel – Lov om Totalsandsynlighed • Kortspil – find sandsynligheden for at trække et billedkort, A: • Det må være sandsynligheden for at trække en billedkort i Hjerter (H), Spar (S), Ruder (R) eller Klør (K): • P(A)=P(A∩H) + P(A∩S) + P(A∩R) + P(A∩K) = 3/52 + 3/52 + 3/52 + 3/52 = 12/52 Spar Hjerter Ruder Klør A∩S A∩R A∩H A∩K A
Betinget sandsynlighed • Den betingede sandsynlighed P(A|B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet: • Ligeledes
Betinget sandsynlighed - intuition • Antag alle udfald er lige sandsynlige, dvs. • N = antal udfald i udfalds rum • NA = antal udfald i hændelse A • Hvad er sandsynligheden for A givet at B er indtruffet? ∙ S ∙ ∙ A B ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Eksempel: Sennep og Ketchup • A = ”Bruger sennep” • B = ”Bruger ketchup” • A⋂B = ”Bruger både sennep og ketchup” • P(A) = 75% P(B) = 80% P(A⋂B) = 65% • Hvad er sandsynligheden for at en ketchupbruger bruger sennep?
Simultan og Marginal Sandsynlighed • Simultan sandsynlighed er sandsynligheden for at en eller flere hændelser indtræffer simultant, fx P(A∩B) • Marginale sandsynligheder beregnes ved at summere over rækker og søjler
Simultan og Marginal Sandsynlighed • A = ”Bruger sennep” • B = ”Bruger ketchup” • P(A) = 75% P(B) = 80% P(A⋂B) = 65%
Multiplikationsregel • Betinget sandsynlighed • Omskrives til multiplikationsreglen • Eksempel: Konsulent på jagt efter job A og job B. Sandsynligheden for at få job A er P(A) = 0.45. Givet at han får job A er sandsynligheden for at få job B P(B|A) = 0.9. • Spørgsmål: Hvad er sandsynligheden for at konsulent får både job A og job B? • Svar:
Uafhængighed • To hændelser A og B er statistisk uafhængige, hvis og kun hvis • Konsekvenser: Hvis A og B er statistisk uafhængige hændelser • Fortolkning af P(B|A) = P(B): Selvom vi ved at A er indtruffet, ændrer det ikke på sandsynligheden for B.
Eksempel: Check for uafhængighed • A = ”Kandidat er kvinde” • B = ”Kandidat i økonomi” • Vides: • P(A) = 48% P(B) = 17.5% P(A⋂B) = 6% • Spørgsmål: Er hændelserne A og B statistisk uafhængige? • Svar: Hvis stat. uafh, så skal der gælde • Check: P(A)P(B) = 0.48*0.175 = 0.084 ≠ 0.06 = P(A⋂B) • Dvs. A og B er ikke statistisk uafhængige.
Bayes’ Sætning • Betinget sandsynlighed • Multiplikationsregel • Kombineres til Bayes’ Sætning: • Bemærk: De betingede sandsynligheder er ”vendt”.
Bayes’ Udvidede Sætning • Hvis E1, E2, …, EK er disjunkte og udtømmende hændelser i S, så gælder • Bayes’ Sætning (Lov om total sandsynlighed + multiplikationsreglen)
Bayes’ sætning: Test for sjælden sygdom • En test for en sjælden sygdom, der rammer 0,1% af befolkningen (P(I)=0,001), er upræcis. Lad i det følgende: • Sandsynligheden for at testen er positiv når man er syg: • Sandsynligheden for at testen er positiv, når man er rask: • Hvad er så sandsynligheden for at man er syg, givet at testen var positiv?
Stokastisk Variabel: Et eksempel Betragt de forskellig mulige ordninger af drenge (B) og piger (G) i fire fødsler. Der er2*2*2*2=24 = 16mulighederog udfaldsrummet er: BBBB BGBB GBBB GGBB BBBG BGBG GBBG GGBG BBGB BGGB GBGB GGGB BBGG BGGG GBGG GGGG Hvis pige og dreng er lige sandsynlige, [P(G) = P(B) = 1/2], og kønnet af hvert barn er uafhængig af kønnet på det foregående barn, så er sandsynligheden for hver af disse 16 muligheder: (1/2)(1/2)(1/2)(1/2) = 1/16.
Eksempel - fortsat • Tæl antallet af piger i hver af de fire fødsler: • BBBB (0) BGBB (1) GBBB (1) GGBB (2) • BBBG (1) BGBG (2) GBBG (2) GGBG (3) • BBGB (1) BGGB (2) GBGB (2) GGGB (3) • BBGG (2) BGGG (3) GBGG (3) GGGG (4) • Bemærk at: • hvert mulig udfald tildeles en enkelt værdi • værdierne, der tildeles varierer over de forskellige udfald • Antallet af piger er en stokastisk variabel: • En stokastisk variabel , X, er en funktion, der tildeler en enkelt, men variabel værdi til hvert element i udfaldsrummet.
BBBB BGBB GBBB BBBG BBGB GGBB GBBG BGBG BGGB GBGB BBGG BGGG GBGG GGGB GGBG GGGG 0 1 X 2 3 4 Udfalds rum Eksempel - fortsat Punkter på den reelle linie
X: S R Stokastisk variabel - formel definition • En stokastisk variabelX er en funktion defineret på S (udfaldsrummet), der antager værdier på R (reelle tal) • I eksperimenter knyttes en talværdi til hvert udfald: • Stokastiske variable kan enten være diskrete eller kontinuerte. • Diskrete: Antager et endeligt antal værdier • Kontinuerte: Antager værdier i en mængde af reelle tal X S oi R 0 X(oi)
Eksempler på diskrete og kontinuerte variable Resten af denne forelæsning ser vi på diskrete stokastiske variable
Eksempel - fortsat Eksempel: Den stokastisk variabel X = 3 når de følgende fire hændelser BGGG, GBGG, GGBG, eller GGGB forekommer, P(X = 3) = P(BGGG) + P(GBGG) + P(GGBG) + P(GGGB) = 4/16 Sandsynligheds fordelingen af en stokastisk variabel er en tabel, der opskriver alle de mulige værdier af en stokastisk variabel og deres tilknyttede sandsynligheder. x P(X=x) For eksemplet: 0 1/16 1 4/16 2 6/16 3 4/16 4 1/16 16/16=1
Eksempel - fortsat Sandsynlighedsfordeling for antal piger i fire fødsler Sandsynlighed, P(x) Antal piger, X
Sandsynligheds fordeling Definition: Lad X:S→R være en diskret stokastisk variabel. P(X=x) = P(x) er en sandsynligheds-fordeling (-funktion) for X, hvis: Notation: Store bogstaver (fx X) betegner stokastisk variable. Små bogstaver (fx x) betegner konkrete værdier af X.
Kumulativ fordelingsfunktion Den kumulative fordelingsfunktion, F(x), for en diskret stokastisk variabel X er: Kumulative fordelingsfunktions for antallet af piger ved 4 fødsler: x P(x)F(x) 0 1/16 1/16 1 4/16 5/16 2 6/16 11/16 3 4/16 15/16 4 1/16 16/16 1.00 1 . 0 0 . 9 0 . 8 0 . 7 0 . 6 ) x ( 0 . 5 F 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 0 1 2 3 4 x
x P(x)F(x) 0 1/16 1/16 1 4/16 5/16 2 6/16 11/16 3 4/16 15/16 4 1/16 16/16 1.00 Eksempel - fortsat
Middelværdi • Middelværdien af en diskret stokastisk variabel X er givet ved: • Dvs. summen af værdien gange sandsynligheden for værdien – et vægtet gennemsnit. • Bemærk! Middelværdien for en stokastisk variabel kaldes også den forventede værdi.
Middelværdi - Eksempel x P(x) xP(x) 0 1/16 1 4/16 2 6/16 3 4/16 4 1/16 16/16=1 Eksempel: X er antal øjne ved terningkast. Dvs. P(X=1) = P(X=2) = … = P(X=6) =1/6. Den forventede værdi er:
Varians • Variansen for en diskret stokastisk variabel er givet ved: • Standard afvigelsen er kvadratroden af variansen:
Varians: Eksempel x x2 P(x) x2P(x) xP(x) 0 0 1/16 0 0 1 1 4/16 4/16 4/16 2 4 6/16 24/16 12/16 3 9 4/16 36/16 12/16 4 16 1/1616/164/16 1 80/16 32/16
Regneregler for middelværdi og varians • Hvis X er en diskret stokastisk variabel, da er middelværdien for en funktion h(X) givet ved • Regneregler for en lineær funktion af X :
Eksempel • Håndboldspiller er på resultatkontrakt, hvor han får 1500kr i bonus pr mål. • Lad X være den stokastiske variabel, der svarer til antal mål scoret i èn kamp. • Det vides at E[X] = 4.6 V[X] = 5.2 • Hvad er den forventede bonus pr kamp? Variansen? • Bonus pr kamp: B = 1500 X • E[B] = V[B] =
Simultan Sandsynlighedsfordeling • Hvis X og Y er to stokastiske variable, så er P(X=x,Y=y) = P(x,y) en simultan sandsynlighedsfunktion for X og Y, hvis • Den Marginal sandsynlighedsfordeling er (joint probability function)
Eksempel: Alder og Salg • Sammenhæng mellem aldersgruppe (X) og købsmønster (Y):
Betinget Sandsynligheder for SV • For to diskrete stokastiske variable er den betingede sandsynligheden for X=x givet Y=y givet ved • Eksempel: Betingede sandsynlighed for køb (Eksempel: Betingede sandsynlighed for køb (Y=1) givet kund i aldergruppen 26 til 45 (X = 2). • Svar:P(X=2,Y=1) = P(2,1) = 0.20 ogP(X=2) = 0.45
Uafhængighed • To diskrete stokastiske variable X og Y er uafhængigehvis og kun hvis for alle x og y, hvor P(x) og P(y) er de marginale sandsynligheds-funktioner. • Eksempel: Er aldersgruppe og købsmønster uafhængige? • Svar: Dvs. der er ikke uafhængighed.
Kovarians • X stokastisk variabel med forventet værdi μX • Y stokastisk variabel med forventet værdi μY • Kovariansen mellem X og Y er givet ved • Hvis X og Y har diskrete stokastiske variable med simultan sandsynligheds funktion P(x,y), så er kovariansen givet ved
Middelværdi og Varians for Par af Stokastiske Variable • Lad X være SV med forventet værdi mx og varians s2X • Lad Y være SV med forventet værdi mY og varians s2Y • Da gælder • Eksempler: • E[X+Y] = V[X+Y] = • E[X-Y] = V[X-Y] =
Regneregler for middelværdi og varians Middelværdien af en linearkombination af stokastiske variable X1,X2,…,Xk. Hvis X1,X2,…,Xk er indbyrdes uafhængige, så: