1 / 38

Statistik Lektion 1

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning. Introduktion. Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang : 8 Kursusgang I fremtiden Start 8:15!!!! Kursusgang: 2 x 45 min forelæsning + opgaveregning

ranger
Download Presentation

Statistik Lektion 1

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. StatistikLektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

  2. Introduktion • Kasper K. Berthelsen, Inst f. Matematiske Fag • Omfang: 8 Kursusgang I fremtiden Start 8:15!!!! • Kursusgang: 2 x 45 min forelæsning + opgaveregning • Indhold: Groft sagt kapitel 1 til 11 i Newbold • Eksamen: Individuel mundtlig efter 7-trins skala • Eksamen tager udgangspunkt i et antal opgaver. • Software: SPSS

  3. Flyskræk! • Passer overskriften? • Politiken 6/12-’07 • Er du tryg ved at flyve? • Ja: 86% i 2005 83% i 2007 • Er der virkelig sket en ændring eller kunne det lige så godt være tilfældigt? • Svaret kommer til sidst i kurset ;-)

  4. Nogle definitioner • Population: Mængden af alle ”individer” vi er interesserede i.fx alle virksomheder i DK • Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians). fx gennemsnits antal ansatte • Stikprøve (sample): Mængde af data taget fra en delmængde af populationen fx 10 tilfældigt udvalgte virksomheder • Statistik: Et deskriptivt mål for stikprøven. fx gennemsnits antal ansatte blandt de 10. • Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type

  5. Typisk statistisk problemstilling • Vi ønsker at udtale os om en population(alle flyrejsende) ud fra en stikprøve (et udsnit af de flyrejsende). • Vi vil udtale os om en parameter for populationen (andelen af trygge flyrejsende) ud fra en stikprøve statistik (andelen af trygge flyrejsende i stikprøven). • Parameteren er aldrig kendt! • Vigtigt: • Vi er ”ligeglade” med medlemmerne af stikprøven! Det er populationen vi vil udtale os om!

  6. Lidt om stikprøver • Simpel tilfældig stikprøve: • Alle medlemmer i populationen har lige stor sandsynlighed for at blive udvalgt til stikprøven • Notation: • N : Størrelsen af populationen (alle vælgere) • n : Størrelsen af stikprøven (antal udvalgte) ∗ Stikprøve: ∙ Population ∙ ∗ ∗ ∙ ∙ ∙ ∙ ∗ ∙ ∙ ∙ ∙ ∗ ∗ ∙ ∙

  7. Deskriptiv statistik:Metoder til at organisere og præsentere data på en informativ måde. Inferential statistikOmhandler: Estimation, test af hypoteser, analyse af sammenhæng og forudsigelse. Eksempel: Hvad er middel-indkomsten i region nord? Er den større en 300.000? Deskriptiv versus inferential statistik

  8. Deskriptiv Statistik • Data består af en eller flere variable, fx højde, køn, alder, favoritfarve for hvert medlem i stikprøven. • Hvordan data (de enkelte variable) opsummeres / beskrives afhænger bl.a. datas ”natur”. • Hovedopdeling: Kategorisk eller numerisk variabel • Kvalitativ variabel: Kategorisk variabel, forskelle giver ikke mening. • Kvantitative variable: numerisk variabel, forskelle giver mening.

  9. Kategoriske variable • Variable hvis værdi er en kategori, fx. • Ryger: Ja , Nej • Godt vejr: Meget enig, devis enig, … , meget uenig • Favoritfarve: Rød, grøn, anden • Ordinal kategorisk variabel • Kategorierne har en rækkefølge (Godt vejr) • Nominal kategorisk variabel • Kategorierne har ikke en rækkefølge (Favoritfarve)

  10. Deskriptiv statistik: Kategoriske variable • Kategorisk variable opsummeres typisk i et bar plot • Højden af baren svarer til frekvensen (dvs. antallet) af medlemmer af hver kategori. Antal Andele Kumulative andele: Andelen af observationer der tilhører denne eller ”tidligere” kategorier.

  11. Numerisk Variabel • Variabel der tager en talværdi. • Diskret numerisk variabel • Variabel kan tage et tælleligt antal værdier • Typisk udtryk for et antal • Fx. antal forsikring-anmeldelser på en uge • Kontinuert numerisk variabel • Variabel kan tage alle værdier i et interval • Typisk udtryk for noget man kan måle. • Fx. Højde, vægt, tid, afstand. Indkomst?

  12. Histogram • Numeriske data præsenteres typisk med et histogram • Histogrammet inddeler et interval i et passende antal delintervaller • For hvert del interval er en kasse, hvis areal er proportional med frekvensen (dvs. antallet) af data i det interval.

  13. Percentiler • Det P’te percentil er den værdi, hvor P% af data ligger under. • Antag vi har en stikprøve med n observationer. • Antag observationerne er sorterede. • Den P’te percentil er (ca) givet ved den (n+1)P/100’te observation. • Eksempel: Antag n = 75 og P = 25. • Find en værdi, så 25% af data ligger under denne værdi. • Løsning: Vælg data punkt nr. 76*25/100 = 19

  14. Kvartiler • Kvartiler inddeler data i kvarte. • 1. , 2. og 3. kvartil svarer til 25. , 50., og 75. percentiler. • 25% af data ligger under 1. kvartil (Q1) • 50% af data ligger under 2. kvartil (Q2) • 75% af data ligger under 3. kvartil (Q3)

  15. Centralitet og Variation • Centralitet: Mål for ”hvor” data ligger • Fx: Median, middelværdi, toppunkt (mode) • Variation: Mål for hvor meget data er spredt ud • Fx spænd (range), varians, standard afvigelse χχχ χχχχχ χχχχχχχχ 0 0

  16. Centralitet: Median • Medianen er værdien af den ”midterste” observation. • Medianen er 50% percentilen og 2. kvartil. • n ulige : Medianen = midterste observation • n lige : Medianen = gennemsnit af to midterste obs. n = antal observationer medianen ? medianen χχχχχχχ χ χχχχχχ 0 0 Data: 7, 9, 11, 12, 13, 15, 17 n = 7

  17. Gennemsnit / Middelværdi • Populationens gennemsnit (ukendt) (mean) • xi er værdien for i ’te medlem i populationen. μ = ”my” • Stikprøve-gennemsnit (sample mean) • = ”x streg”. • Bemærk: Græske bogstaver betegner det ukendte.

  18. Gennemsnit: Eksempel • Stikprøve-gennemsnit • Stikprøve-gennemsnit χχχχχχχ χ χχχχχχ 0 0

  19. Eksempel: Vægt Bemærk at vægt-fordelingen er lidt højre-skæv, dvs. fordelingen ”hælder” til højre.

  20. Variansen • Variansen er et mål for variationen. • Populationensvariansen (ukendt) • σ = ”sigma” • Stikprøve-varians • De n-1 sikrer at s2 i gennemsnit er lig σ2.

  21. Varians: Eksempel • Stikprøve-gennemsnit • Stikprøve-gennemsnit ? χχχχχχχ χ χχχχχχ 0 0 ? χχχχχχχ 0

  22. Standardafvigelsen • Standardafvigelsen er kvadratroden af variansen • Populationens standard afvigelsen (ukendt) • Stikprøve-standard afvigelsen

  23. Sammen middelværdi og varians (ca.)

  24. Chebychevs Sætning • Antag vi har en population med • middelværdi μ • standard afvigelse σ • For enhver konstant k > 1 gælder at intervallet indeholder mindst 100[1-(1/k2)]% af populationen. • Eksempel: k = 2 ⇒ 100[1-(1/k2)]% = 100[1-1/4]% = 75% • Dvs. intervallet μ ± 2 σ indeholder mindst 75%. • For forrige slide (ca.) 0 ± 2*√5 = [ -4.48 ; 4.48 ]

  25. Tommelfinger regel • For mange (store) populationer gælder • μ ± σ indeholder 68% af populationen • μ ± 2 σ indeholder 95% af populationen μ - 2 σ μ + 2 σ χχχχχχχ 0 μ

  26. Eksempel: Vægt

  27. Sandsynligheder Hændelser Sandsynligheder Regler for sandsynligheder

  28. Udgangspunktet • Eksperiment: • Handling, der leder frem til et af flere mulige udfald • Fx. • Kast med en terning • Vælg 10 tilfældige virksomheder. • Udfald: • Observation eller måling • Fx: • Antal øjne på en terning • 10 navngivne virksomheder.

  29. Udfaldsrum • Udfaldsrummet er mængden af mulige udfald af eksperimentet, S = {O1,O2,…,Ok} • Udfaldene skal være ”udtømmende” • Eksempler: • Terningkast: S={1,2,3,4,5,6} S={1,2,3,4,5} dur ikke! • Møntkast: S={plat, krone} S={plat} dur ikke • Udfaldene må ikke ”overlappe” • Terningkast: S={1,2,3,4,5,6} – S={1-2,2-3,3-4,4-5,5-6} dur ikke! Oi er i’te udfald af k mulige.

  30. Hændelser • En simpel hændelse er et udfald i udfaldsrummet • Eksempel: Terningkast – en 6’er er en simpel hændelse • En hændelseer en mængde af en eller flere simple hændelser i et udfaldsrummet • Eksempel: Terningkast – A={1,4,6} er en hændelse • Hændelser kan indtegnes i et Venn diagram S 2,3,5 A 1, 4, 6 Venn Diagram

  31. Sandsynlighed • En sandsynlighed er et kvantitativt mål for usikkerhed – et mål der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed. • Sandsynligheden for en hændelse, A, betegnes P(A) • En sandsynlighed er et reelt tal mellem 0 og 1. • P(A) = 0 : Hændelsen A sker aldrig • P(A) = 1 : Hændelsen A sker altid • Ex: Sandsynligheden for regn i morgen er 0,5 • Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001

  32. Klassisk Sandsynlighed • Antag at alle udfald forekommer med lige stor sand-synlighed. Da er sandsynligheden for en hændelse A givet ved: hvor • NA er antal udfald i hændelsen A. • N er antal udfald i udfaldsrummet S. • Eksempel: Terningkast – lige sandsynlighed for alle udfald. Lad A={1,2,4} • NA = 3 N = 6 • P(A) = 3/6 = 0.5

  33. Regler for sandsynlighed • Givet et udfaldsrum S={O1, O2,…, Ok} da skal sandsynlighederne opfylde: 1) For enhver hændelse A i udfaldsrummet S • Dvs. sandsynlighden for en hændelse er et tal mellem 0 og 1. 2) For enhver hændelse A i udfaldsrummet S • Dvs. sandsynligheden for en hændelse er summen af sandsynlighederne for de simple hændelser indeholdt i A. 3) P(S) = 1 • Dvs summen af sandsynlighederne for alle simple hændelser i ufladsrummet er 1. r

  34. Komplimentærmængden • Komplementet af en mængde A, er mængden Ā, der indeholder alle elementer i S, der ikke er i A. • Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er Ā={2,3,5} • Spørgsmål: Antag vi kender P(A) . Find P(Ā) = S 2,3,5 A 1, 4, 6 Ā

  35. S A B A ∩ B 1, 2 3 4, 5 6 Fællesmængden • Fællesmængden af A og B, A ∩ B, er mængden, der indeholder de elementer, der er i både A og B • Eksempel: • A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne. • B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne. • A ⋂ B , hændelsen at både A og B indtræffer. • A ⋂ B = {3}

  36. Foreningsmængden • Foreningsmængden af A og B, A U B, er mængden, der indeholder de elementer, der er i A eller B eller begge • Eksempel: • A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne. • B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne. • A ⋃ B , hændelsen at A og/eller B indtræffer. • A ⋃B = {1,2,3,4,5} S A B A U B 3 1, 2 4, 5 6

  37. S A B A ∩ B 1, 2 3 4, 5 6 Spørgsmål • Antag vi kender følgende sandsynlighed • P(A) • P(B) • P(A ⋂ B) • Hvad er sandynligheden for A ⋃B • P(A ⋃B ) =

  38. Den tomme mængde • Den tomme mængde betegnes Ø • P(Ø) = • To mængder er disjunkte, hvis fællesmængden A ∩ B=Ø • Dvs to disjunkte hændelser ikke kan indtræffe på samme tid (mutually exclusive). • Antag A ∩ B=Ø. Hvad er da P(A ⋃B) = ? S A A={1,2,3} B={4,5} A ∩ B={Ø} B 1, 2, 3 4, 5 6

More Related