380 likes | 786 Views
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning. Introduktion. Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang : 8 Kursusgang I fremtiden Start 8:15!!!! Kursusgang: 2 x 45 min forelæsning + opgaveregning
E N D
StatistikLektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning
Introduktion • Kasper K. Berthelsen, Inst f. Matematiske Fag • Omfang: 8 Kursusgang I fremtiden Start 8:15!!!! • Kursusgang: 2 x 45 min forelæsning + opgaveregning • Indhold: Groft sagt kapitel 1 til 11 i Newbold • Eksamen: Individuel mundtlig efter 7-trins skala • Eksamen tager udgangspunkt i et antal opgaver. • Software: SPSS
Flyskræk! • Passer overskriften? • Politiken 6/12-’07 • Er du tryg ved at flyve? • Ja: 86% i 2005 83% i 2007 • Er der virkelig sket en ændring eller kunne det lige så godt være tilfældigt? • Svaret kommer til sidst i kurset ;-)
Nogle definitioner • Population: Mængden af alle ”individer” vi er interesserede i.fx alle virksomheder i DK • Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians). fx gennemsnits antal ansatte • Stikprøve (sample): Mængde af data taget fra en delmængde af populationen fx 10 tilfældigt udvalgte virksomheder • Statistik: Et deskriptivt mål for stikprøven. fx gennemsnits antal ansatte blandt de 10. • Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type
Typisk statistisk problemstilling • Vi ønsker at udtale os om en population(alle flyrejsende) ud fra en stikprøve (et udsnit af de flyrejsende). • Vi vil udtale os om en parameter for populationen (andelen af trygge flyrejsende) ud fra en stikprøve statistik (andelen af trygge flyrejsende i stikprøven). • Parameteren er aldrig kendt! • Vigtigt: • Vi er ”ligeglade” med medlemmerne af stikprøven! Det er populationen vi vil udtale os om!
Lidt om stikprøver • Simpel tilfældig stikprøve: • Alle medlemmer i populationen har lige stor sandsynlighed for at blive udvalgt til stikprøven • Notation: • N : Størrelsen af populationen (alle vælgere) • n : Størrelsen af stikprøven (antal udvalgte) ∗ Stikprøve: ∙ Population ∙ ∗ ∗ ∙ ∙ ∙ ∙ ∗ ∙ ∙ ∙ ∙ ∗ ∗ ∙ ∙
Deskriptiv statistik:Metoder til at organisere og præsentere data på en informativ måde. Inferential statistikOmhandler: Estimation, test af hypoteser, analyse af sammenhæng og forudsigelse. Eksempel: Hvad er middel-indkomsten i region nord? Er den større en 300.000? Deskriptiv versus inferential statistik
Deskriptiv Statistik • Data består af en eller flere variable, fx højde, køn, alder, favoritfarve for hvert medlem i stikprøven. • Hvordan data (de enkelte variable) opsummeres / beskrives afhænger bl.a. datas ”natur”. • Hovedopdeling: Kategorisk eller numerisk variabel • Kvalitativ variabel: Kategorisk variabel, forskelle giver ikke mening. • Kvantitative variable: numerisk variabel, forskelle giver mening.
Kategoriske variable • Variable hvis værdi er en kategori, fx. • Ryger: Ja , Nej • Godt vejr: Meget enig, devis enig, … , meget uenig • Favoritfarve: Rød, grøn, anden • Ordinal kategorisk variabel • Kategorierne har en rækkefølge (Godt vejr) • Nominal kategorisk variabel • Kategorierne har ikke en rækkefølge (Favoritfarve)
Deskriptiv statistik: Kategoriske variable • Kategorisk variable opsummeres typisk i et bar plot • Højden af baren svarer til frekvensen (dvs. antallet) af medlemmer af hver kategori. Antal Andele Kumulative andele: Andelen af observationer der tilhører denne eller ”tidligere” kategorier.
Numerisk Variabel • Variabel der tager en talværdi. • Diskret numerisk variabel • Variabel kan tage et tælleligt antal værdier • Typisk udtryk for et antal • Fx. antal forsikring-anmeldelser på en uge • Kontinuert numerisk variabel • Variabel kan tage alle værdier i et interval • Typisk udtryk for noget man kan måle. • Fx. Højde, vægt, tid, afstand. Indkomst?
Histogram • Numeriske data præsenteres typisk med et histogram • Histogrammet inddeler et interval i et passende antal delintervaller • For hvert del interval er en kasse, hvis areal er proportional med frekvensen (dvs. antallet) af data i det interval.
Percentiler • Det P’te percentil er den værdi, hvor P% af data ligger under. • Antag vi har en stikprøve med n observationer. • Antag observationerne er sorterede. • Den P’te percentil er (ca) givet ved den (n+1)P/100’te observation. • Eksempel: Antag n = 75 og P = 25. • Find en værdi, så 25% af data ligger under denne værdi. • Løsning: Vælg data punkt nr. 76*25/100 = 19
Kvartiler • Kvartiler inddeler data i kvarte. • 1. , 2. og 3. kvartil svarer til 25. , 50., og 75. percentiler. • 25% af data ligger under 1. kvartil (Q1) • 50% af data ligger under 2. kvartil (Q2) • 75% af data ligger under 3. kvartil (Q3)
Centralitet og Variation • Centralitet: Mål for ”hvor” data ligger • Fx: Median, middelværdi, toppunkt (mode) • Variation: Mål for hvor meget data er spredt ud • Fx spænd (range), varians, standard afvigelse χχχ χχχχχ χχχχχχχχ 0 0
Centralitet: Median • Medianen er værdien af den ”midterste” observation. • Medianen er 50% percentilen og 2. kvartil. • n ulige : Medianen = midterste observation • n lige : Medianen = gennemsnit af to midterste obs. n = antal observationer medianen ? medianen χχχχχχχ χ χχχχχχ 0 0 Data: 7, 9, 11, 12, 13, 15, 17 n = 7
Gennemsnit / Middelværdi • Populationens gennemsnit (ukendt) (mean) • xi er værdien for i ’te medlem i populationen. μ = ”my” • Stikprøve-gennemsnit (sample mean) • = ”x streg”. • Bemærk: Græske bogstaver betegner det ukendte.
Gennemsnit: Eksempel • Stikprøve-gennemsnit • Stikprøve-gennemsnit χχχχχχχ χ χχχχχχ 0 0
Eksempel: Vægt Bemærk at vægt-fordelingen er lidt højre-skæv, dvs. fordelingen ”hælder” til højre.
Variansen • Variansen er et mål for variationen. • Populationensvariansen (ukendt) • σ = ”sigma” • Stikprøve-varians • De n-1 sikrer at s2 i gennemsnit er lig σ2.
Varians: Eksempel • Stikprøve-gennemsnit • Stikprøve-gennemsnit ? χχχχχχχ χ χχχχχχ 0 0 ? χχχχχχχ 0
Standardafvigelsen • Standardafvigelsen er kvadratroden af variansen • Populationens standard afvigelsen (ukendt) • Stikprøve-standard afvigelsen
Chebychevs Sætning • Antag vi har en population med • middelværdi μ • standard afvigelse σ • For enhver konstant k > 1 gælder at intervallet indeholder mindst 100[1-(1/k2)]% af populationen. • Eksempel: k = 2 ⇒ 100[1-(1/k2)]% = 100[1-1/4]% = 75% • Dvs. intervallet μ ± 2 σ indeholder mindst 75%. • For forrige slide (ca.) 0 ± 2*√5 = [ -4.48 ; 4.48 ]
Tommelfinger regel • For mange (store) populationer gælder • μ ± σ indeholder 68% af populationen • μ ± 2 σ indeholder 95% af populationen μ - 2 σ μ + 2 σ χχχχχχχ 0 μ
Sandsynligheder Hændelser Sandsynligheder Regler for sandsynligheder
Udgangspunktet • Eksperiment: • Handling, der leder frem til et af flere mulige udfald • Fx. • Kast med en terning • Vælg 10 tilfældige virksomheder. • Udfald: • Observation eller måling • Fx: • Antal øjne på en terning • 10 navngivne virksomheder.
Udfaldsrum • Udfaldsrummet er mængden af mulige udfald af eksperimentet, S = {O1,O2,…,Ok} • Udfaldene skal være ”udtømmende” • Eksempler: • Terningkast: S={1,2,3,4,5,6} S={1,2,3,4,5} dur ikke! • Møntkast: S={plat, krone} S={plat} dur ikke • Udfaldene må ikke ”overlappe” • Terningkast: S={1,2,3,4,5,6} – S={1-2,2-3,3-4,4-5,5-6} dur ikke! Oi er i’te udfald af k mulige.
Hændelser • En simpel hændelse er et udfald i udfaldsrummet • Eksempel: Terningkast – en 6’er er en simpel hændelse • En hændelseer en mængde af en eller flere simple hændelser i et udfaldsrummet • Eksempel: Terningkast – A={1,4,6} er en hændelse • Hændelser kan indtegnes i et Venn diagram S 2,3,5 A 1, 4, 6 Venn Diagram
Sandsynlighed • En sandsynlighed er et kvantitativt mål for usikkerhed – et mål der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed. • Sandsynligheden for en hændelse, A, betegnes P(A) • En sandsynlighed er et reelt tal mellem 0 og 1. • P(A) = 0 : Hændelsen A sker aldrig • P(A) = 1 : Hændelsen A sker altid • Ex: Sandsynligheden for regn i morgen er 0,5 • Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001
Klassisk Sandsynlighed • Antag at alle udfald forekommer med lige stor sand-synlighed. Da er sandsynligheden for en hændelse A givet ved: hvor • NA er antal udfald i hændelsen A. • N er antal udfald i udfaldsrummet S. • Eksempel: Terningkast – lige sandsynlighed for alle udfald. Lad A={1,2,4} • NA = 3 N = 6 • P(A) = 3/6 = 0.5
Regler for sandsynlighed • Givet et udfaldsrum S={O1, O2,…, Ok} da skal sandsynlighederne opfylde: 1) For enhver hændelse A i udfaldsrummet S • Dvs. sandsynlighden for en hændelse er et tal mellem 0 og 1. 2) For enhver hændelse A i udfaldsrummet S • Dvs. sandsynligheden for en hændelse er summen af sandsynlighederne for de simple hændelser indeholdt i A. 3) P(S) = 1 • Dvs summen af sandsynlighederne for alle simple hændelser i ufladsrummet er 1. r
Komplimentærmængden • Komplementet af en mængde A, er mængden Ā, der indeholder alle elementer i S, der ikke er i A. • Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er Ā={2,3,5} • Spørgsmål: Antag vi kender P(A) . Find P(Ā) = S 2,3,5 A 1, 4, 6 Ā
S A B A ∩ B 1, 2 3 4, 5 6 Fællesmængden • Fællesmængden af A og B, A ∩ B, er mængden, der indeholder de elementer, der er i både A og B • Eksempel: • A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne. • B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne. • A ⋂ B , hændelsen at både A og B indtræffer. • A ⋂ B = {3}
Foreningsmængden • Foreningsmængden af A og B, A U B, er mængden, der indeholder de elementer, der er i A eller B eller begge • Eksempel: • A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne. • B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne. • A ⋃ B , hændelsen at A og/eller B indtræffer. • A ⋃B = {1,2,3,4,5} S A B A U B 3 1, 2 4, 5 6
S A B A ∩ B 1, 2 3 4, 5 6 Spørgsmål • Antag vi kender følgende sandsynlighed • P(A) • P(B) • P(A ⋂ B) • Hvad er sandynligheden for A ⋃B • P(A ⋃B ) =
Den tomme mængde • Den tomme mængde betegnes Ø • P(Ø) = • To mængder er disjunkte, hvis fællesmængden A ∩ B=Ø • Dvs to disjunkte hændelser ikke kan indtræffe på samme tid (mutually exclusive). • Antag A ∩ B=Ø. Hvad er da P(A ⋃B) = ? S A A={1,2,3} B={4,5} A ∩ B={Ø} B 1, 2, 3 4, 5 6