260 likes | 444 Views
Matematikseminar foråret 2009. Regression , statistik og sandsynlighedsregning. Regression. Lineær regression f(x)=a∙x+b Eksponentiel regression f(x)=b∙a x Potensregression f(x)=b∙x a. Eks. Henfald (TI89). Deskriptiv statistik. Noget teori og nogle begreber.
E N D
Matematikseminar foråret 2009 Regression , statistik og sandsynlighedsregning
Regression • Lineær regression f(x)=a∙x+b • Eksponentiel regression f(x)=b∙ax • Potensregression f(x)=b∙xa Eks. Henfald (TI89)
Noget teori og nogle begreber En stikprøve eller et observationssæt betegnes x1,x2,…………xn En a- fraktil er det mindste tal x, hvor den kumuleret frekvens er større end eller lig med a. Middelværdi : Varians : Spredning :
Nogle graftyper til deskriptiv Statistik Histogram til kontinuerte data Sumkurve vha. kumuleret frekvens Stolpediagram til ikke kontinuerte data XY-graf til beskrivelse af sammenhæng En del af ovenstående vil blive illustreret vha. SPSS: poisbin6indlagt henfald, soldaterhøjde.
Endeligt sandsynlighedsfelt Definition Ved et endeligt sandsynlighedsfelt forstås parret (U,P), hvor 1) U = ,hvor n N. er en mængde . U kaldes udfaldsrummet og mængdens elementer for udfald. 2) 0 ≤ P(u)≤1 for alle uU . 3) = 1. P kaldes for sandsynlighedsfunktionen, og P(u) betegner sandsynligheden for udfaldet u. Såfremt P(u) = for alle uU, kaldes (U,P) et symmetrisk sandsynlighedsfelt.
Definition En delmængde A af udfaldsrummet U kaldes en hændelse. Sandsynligheden for hændelsen A betegnes med P(A) og P(A) = Definition Lad A og B være to hændelser i et sandsynlighedsfelt (U,P), hvor P(B)>0. Den betingede sandsynlighed for A givet B er bestemt ved
Nogle nyttige formler: Additionssætningen: Bayes’ formel: Eksempel: Apgartal
Eksemplet fortsat P(A|B) = P(A∩B) / P(B) P(Moderen røg) = 10/30 = 33.3% P(Apgar < 7) = 11/30 = 36.7% P(Moderen røg og Apgar < 7) = 8/30 = 26.7% P(Apgar < 7| Moderen røg) = 26.7% / 33.3 % = 8/10 = 80.0%
Bayes’ formel P(Brun) = 35% P(Lus|Blond) = 20% P(Lus) = ???
Bayes’ formel fortsat P(Lus|Blond) = P(Lus ∩ Blond)/P(Blond) P(Lus ∩ Blond) = P(Blond) P(Lus|Blond) = 0.4 · 0.2 = 8% P(Lus) = P(Lus ∩ Brun) + P(Lus ∩ Blond) + P(Lus ∩ Sort) + P(Lus ∩ Rød) = 0.12 · 0.35 + 0.20 · 0.40 + 0.08 · 0.20 + 0.25 · 0.05 = 15.1%
Bayes’ formel fortsat P(Rød|Lus) = ??? P(Rød|Lus)= P(Lus ∩ Rød)/P(Lus) = 0.25 · 0.05/0.151 = 8.3%
Definition Lad der være givet et endeligt sandsynlighedsfelt (U,P). En funktion X af U ind i R kaldes en stokastisk variabel. Ved P(X = x) forstås sandsynligheden P(X = x) for x Vm(X) kaldes sandsynlighedsfordelingen for den stokastiske variabel X. Hvis Vm(X)= betegnes og for variansen af X. Kvadratroden af variansen kaldes for spredningen af X og betegnes s(X). for middelværdien af X
Kombinatorik Angiver antal måde man kan udtage r elementer fra en mængde på n elementer uden hensyntagen til rækkefølgen. Den hypergeometriske fordeling: Fra en population på N elementer, hvoraf d er defekte, udtages en stikprøve på n elementer. Hvis X er antal defekte i stikprøven fås
Eksempel En population består af 30 æbler, hvoraf 5 er rådne. Der udtages en stikprøve på 4 æbler. Kaldes X for antal rådne æbler i stikprøven fås
Binomialfordelingen Et basiseksperiment beskrives af et udfaldsrum E med to udfald succes (s) og fiasko (f), dvs. E={s,f}, hvor P(s)=p og P(f)=1-p. Basiseksperimemtet gentages n gange uafhængigt af hinanden. Hvis X betegner antal succes i de n gentagelser gælder der Sætning: E(X)=np ; V(X)=np(1-p) Eks. 5 uafhængige kast med en terning. X er antal 6’ere. Se også SPSS: poisBin6indlagte.sav
Generel teori Definition : σ-algebra Lad Ω være en ikke-tom mængde. En mængde F af delmængder af Ω kaldes en σ-algebra på Ω hvis der gælder: 1. ΩF. 2. Fer afsluttet over for komplementærmængdedannelse, : hvis AF, så er AcF 3. F er afsluttet over for tællelige foreningsmængdedannelser, : hvis er en følge i F, så er foreningsmængden også i F.
Definition: Sandsynlighedsrum • Et sandsynlighedrum er et tripel (Ω,F,P) bestående af • 1. et udfaldsrum Ω som er en ikke-tom mængde, • 2. en σ-algebra F af delmængder af Ω, • 3. Et sandsynlighedsmål på (Ω, F), dvs. en afbildning P : F→ R som er • positiv: P(A)≥0 for alle A i F, • normeret: P(Ω=1, og • σ-addit iv : hvis er en følge af parvis disjunkte • hændelser fra F, så er . Sætning Lad (Ω,F,P) være et sandsynlighedsrum. Der gælder at sandsynligheds- målet er monoton-kontinuert i den forstand at hvis man har en voksende følge i F , så er i F, og ; på samme måde hvis er en aftagende følge i F, så er i F og .
Definition: Stokastisk variabel En stokastisk variabel på (Ω,F,P) er en afbildning X af Ω ind i R med den egenskab at {X B} F for ethvert B B, hvor Bden mindste σ-algebra på R som indeholder alle intervaller. ( En så- kaldt Borel-σ-algebra). Definition: Fordelingsfunktion Fordelingsfunktionen for en stokastisk variabel er funktionen F(x)=P(X≤x) Sætning Fordelingsfunktionen F for en stokastisk variabel X har følgende egenskaber: 1. Den er ikke-aftagende, dvs. hvis x≤y, så er F(x)≤F(y). 2. og . 3. Den er højrekontinuert, dvs. F(x+) = F(x) for alle x. 4. I ethvert punkt x gælder P(X = x) = F(x) − F(x−). 5. Et punkt x er et diskontinuitetspunkt for F hvis og kun hvis P(X = x) > 0.
Kontinuerte fordelinger Definition: Tæthedsfunktion En sandsynlighedtæthedsfunktion på R er en integrabel funktion f : R→[0;∞[ hvor =1 Definition: Kontinuert fordeling En kontinuert sandsynlighedsfordeling er en sandsynlighedsfordeling som har en sandsynlighedstæthedsfunktion f : funktionen er fordelingsfunktionen for en kontinuert fordeling på R Definition : middelværdi ,varians og spredning Lad X være en stokastisk variabel med tæthedfunktionf(x) Middelværdi μ=E(X)= Varians σ2=E((X-μ)2)= Spredningen er σ
Normalfordelingen er det klassiske eksempel på en kontinuert fordeling. Her er tæthedsfunktionen givet ved Middelværdien er μ og spredningen σ. Den stokastiske variabel med denne tæthedsfunktion siges at være N(μ, σ2) –fordelt. Den normalfordelte stokastiske variabel, som har middelværdi 0 og varians 1, kaldes sædvanligvis U, og den tilhørende tæt- hedsfunktion for φ , dvs. at Den tilsvarende fordelingsfunktion kaldes for φ, dvs. at
Der gælder følgende : Man kan derfor klare sig med kendskab til værdier af Ф, som er tabellagt indlagt i de fleste computersystemer. Undersøgelse af om et observationssæt kan betragtes som Normalfordelt: Apgar- fødselsvægt (SPSS) eller BMI – Geogear (SPSS)
Hvorfor er normalfordelingen interessent? Ja, det er den, fordi gennemsnittet af næsten alle målinger tilnærmelsesvis er normalfordelt. Mere præcist, så gælder den centrale grænseværdisætning :
Nogle grænseværdier Hvis X er b(n,p)-fordelt og np → λ for n→ ∞ vil X tilnærmelsesvis være poisson-fordelt, Dvs. at Der gælder at E(X) = V(X) = λ Hvis X er b(n,p)-fordelt er X tilnærmelsesvis normalfordelt N(µ, σ2) for n→ ∞ , hvor µ = np og σ2 = np(1-p) .