Statistik Lektion 1

StatistikLektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Introduktion • Kasper K. Berthelsen, Inst f. Matematiske Fag • Omfang: 8 Kursusgang I fremtiden Start 8:15?? • Kursusgang: 2 x 45 min forelæsning + opgaveregning • Indhold: Groft sagt kapitel 1 til 11 i Newbold • Eksamen: Individuel mundtlig efter 7-trins skala • Eksamen tager udgangspunkt i et antal opgaver. • Software: R

Nogle definitioner • Population: Mængden af alle ”individer” vi er interesserede i.fx alle virksomheder i DK • Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians). fx gennemsnits antal ansatte • Stikprøve (sample): Mængde af data taget fra en delmængde af populationen fx 10 tilfældigt udvalgte virksomheder • Statistik: Et deskriptivt mål for stikprøven. fx gennemsnits antal ansatte blandt de 10. • Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type

Typisk statistisk problemstilling • Vi ønsker at udtale os om en population(alle flyrejsende) ud fra en stikprøve (et udsnit af de flyrejsende). • Vi vil udtale os om en parameter for populationen (andelen af trygge flyrejsende) ud fra en stikprøve statistik (andelen af trygge flyrejsende i stikprøven). • Parameteren for population er aldrig kendt! (i praksis) • Vigtigt: • Vi er ”ligeglade” med medlemmerne af stikprøven! Det er populationen vi vil udtale os om!

Lidt om stikprøver • Simpel tilfældig stikprøve: • Alle medlemmer i populationen har lige stor sandsynlighed for at blive udvalgt til stikprøven • Notation: • N : Størrelsen af populationen (alle vælgere) • n : Størrelsen af stikprøven (antal adspurgte vælgere) ∗ Stikprøve: ∙ Population ∙ ∗ ∗ ∙ ∙ ∙ ∙ ∗ ∙ ∙ ∙ ∙ ∗ ∗ ∙ ∙

Deskriptiv statistik:Metoder til at organisere og præsentere data på en informativ måde. Inferential statistikOmhandler: Estimation, test af hypoteser, analyse af sammenhæng og forudsigelse. Eksempel: Hvad er middel-indkomsten i region nord? Er den større en 300.000? Deskriptiv versus inferential statistik

Deskriptiv Statistik • Data består af en eller flere variable, fx højde, køn, alder, favoritfarve for hvert medlem i stikprøven. • Hvordan data (de enkelte variable) opsummeres / beskrives afhænger bl.a. datas ”natur”. • Hovedopdeling: Kategorisk eller numerisk variabel • Kvalitativ variabel: Variablens værdier er beskrivende, kategorisk variabel, forskelle giver ikke mening. • Kvantitative variable: Variablens værdier er målinger, numerisk variabel, forskelle giver mening.

Kategoriske variable • Variable hvis værdi er en kategori, fx. • Ryger: Ja , Nej • Godt vejr: Meget enig, devis enig, … , meget uenig • Favoritfarve: Rød, grøn, anden • Ordinal kategorisk variabel (ordinal = ordnet) • Kategorierne har en rækkefølge (Godt vejr) • Nominal kategorisk variabel (nominal = navngiven) • Kategorierne har ikke en rækkefølge (Favoritfarve)

Deskriptiv statistik: Kategoriske variable • Kategorisk variable opsummeres typisk i et bar plot • Højden af baren svarer til frekvensen (dvs. antallet) af medlemmer af hver kategori.

Numerisk Variabel • Variabel der tager en talværdi. • Diskret numerisk variabel • Variabel kan tage et tælleligt antal værdier • Typisk udtryk for et antal • Fx. antal forsikring-anmeldelser på en uge • Kontinuert numerisk variabel • Variabel kan tage alle værdier i et interval • Typisk udtryk for noget man kan måle. • Fx. Højde, vægt, tid, afstand. Indkomst?

Histogram • Numeriske data præsenteres typisk med et histogram • Histogrammet inddeler et interval i et passende antal delintervaller • For hvert del interval er en kasse, hvis areal er proportional med frekvensen (dvs. antallet) af data i det interval.

Percentiler • Det P’te percentil er den værdi, hvor P% af data ligger under. • Antag vi har en stikprøve med n observationer. • Antag observationerne er sorterede. • Den P’te percentil er (ca) givet ved den (n+1)P/100’te observation. • Eksempel: Antag n = 75 og P = 25. • Find en værdi, så 25% af data ligger under denne værdi. • Løsning: Vælg data punkt nr. 76*25/100 = 19

Kvartiler • Kvartiler inddeler data i kvarte. • 1. , 2. og 3. kvartil svarer til 25. , 50., og 75. percentiler. • 25% af data ligger under 1. kvartil (Q1) • 50% af data ligger under 2. kvartil (Q2) • 75% af data ligger under 3. kvartil (Q3)

Boxplot • Et boxplot er en grafisk repræsentation af bl.a. kvartiler. • Kassen angiver, hvor de midterste 50% af data ligger. • Højden på kassen er forskellen mellem 3. kvartil og 1. kvartil, den såkaldte Inter Quartile Range (IQR). • Knurhårene strækker sig ud til observationer, der ligger maks 1.5*IQR væk fra kassen. • Observationer, der ligger mere end 1.5*IQR borte kaldes outliers. Outlier 3. kvartil max 1,5*IQR Medianen IQR 1. kvartil

Centralitet og Variation • Centralitet: Mål for ”hvor” data ligger • Fx: Median, middelværdi, toppunkt (mode) • Variation: Mål for hvor meget data er spredt ud • Fx spænd (range), varians, standard afvigelse χχχ χχχχχ χχχχχχχχ 0 0

Centralitet: Median • Medianen er værdien af den ”midterste” observation. • Medianen er 50% percentilen og 2. kvartil. • n ulige : Medianen = midterste observation • n lige : Medianen = gennemsnit af to midterste obs. n = antal observationer medianen ? medianen χχχχχχχ χ χχχχχχ 0 0 Data: 7, 9, 11, 12, 13, 15, 17 n = 7

Gennemsnit / Middelværdi • Populationsgennemsnit (ukendt) (mean) • xi er værdien for i ’te medlem i populationen. μ = ”my” • Stikprøve-gennemsnit (sample mean) • = ”x streg”. • Bemærk: Græske bogstaver betegner det ukendte.

Gennemsnit: Eksempel • Stikprøve-gennemsnittet • Stikprøve-gennemsnittet χχχχχχχ χ χχχχχχ 0 0

Eksempel: Vægt ▪ Minimum ▪ 1. kvartil ▪ Median ▪ Gennemsnit ▪ 3. kvartil ▪ Maksimum ▪ Antal manglende svar Bemærk at vægt-fordelingen er lidt højre-skæv, dvs. fordelingen ”hælder” til højre.

Variansen • Variansen er et mål for variationen. • Populationsvariansen (ukendt) • σ = ”sigma” • Stikprøve-variansen • De n-1 sikrer at s2 i gennemsnit er lig σ2.

Varians: Eksempel • Stikprøve-gennemsnit • Stikprøve-gennemsnit ? χχχχχχχ χ χχχχχχ 0 0 ? χχχχχχχ 0

Standardafvigelsen • Standardafvigelsen er kvadratroden af variansen • Populationens standard afvigelsen (ukendt) • Stikprøve-standard afvigelsen

R Intro til R

R • Ifølge wikipedia: • R er et open source statstikprogram og programmerings-sprog introduceret i 1993. • Seneste version er 2.12.1 • R kan downloades på www.r-project.org • R er i udgangspunktet uden peg-og-klik • Mere end 2000 pakker (udvidelser a la et plugin) • Senere skal vi bruge en pakke specielt til økonometri • I det følgende tager vi udgangspunkt i Windows versionen. Der eksisterer versioner til Mac og Linux.

Start R • Inden man starter R er det en god ide at lave en arbejds-mappe, hvor man samler data-filer og .R-filer (kommer vi til senere). • Når R så er startet, så brug File → Change dir…til at vælge arbejdsmappen. • Nu er vi klar!

Ændre default arbejdsmappe

Se data • I min arbejdsmappe har jeg en data-fil der hedder Sundby95.dat liggende. • Hvis jeg åbner data-filen i Notepad ser den sådan ud: • Data består af 6 kolonner, der hver svarer til en variabel. • Bemærk: Variabelnavnet står øverst i kolonnen! • Luk Notepad igen – ellers går det bare galt ;-)

Hent data ind i R • Vi er nu klar til vores første kommando! • På kommandolinjen skriv: mitdata = read.table(”Sundby95.dat”, header=TRUE) • Dette læser data-filen ind i en tabel med navnet mitdata. • Med tilføjelsen header=TRUE har vi angivet at variabel navnet er angivet i øverste række i data-filen. • Man kan se indholdet af tabellen mitdata, med flg. kommando: fix(mitdata) • Man kan få hjælp ved at skrive ?read.table

Sådan ser data ud • Tænk på tabellen som en matrix med navngivne søjler. • Luk ’Data Editor’ vinduet for at komme videre

Et hurtigt overblik • Man kan få en opsummering af tabellen vha. summary(mitdata) • Resultat: • For kategoriske variable: Frekvenser for hver kategori. • For kvalitative variable: Mindste værdi, 1. kvartil, median, middelværdi, 3. kvartil, største værdi, og antal manglende værdier. • NA = ”Not Available” – manglende observationer.

Den enkelte variabel. • Man kan se hvilke variable tabellen indeholder vha: • Vi vil se nærmere på vægt. Vi kan se indholdet af søjlen med navnet vaegt frem vha. mitdata$vaegt. Gør man det får man listet BMI for alle 2742 deltagere… lidt uoverskueligt! • Vi kan få et overblik over vægt vha.

Et par plot • Histogram • Boxplot

Numeriske opsummeringer R vil ikke udregne gennemsnittet, når der mangler observationer. • Middelværdi • Percentiler (0%, 25%, 50%, 75%, 100%) • Andre percentiler, fx. 5% og 95% • Standardafvigelsen

Sandsynligheder Hændelser Sandsynligheder Regler for sandsynligheder

Udgangspunktet • Eksperiment: • Handling, der leder frem til et af flere mulige udfald • Fx. • Kast med en terning • Vælg 10 tilfældige virksomheder. • Udfald: • Observation eller måling • Fx: • Antal øjne på en terning • 10 navngivne virksomheder.

Udfaldsrum • Udfaldsrummet er mængden af mulige udfald af eksperimentet, S = {O1,O2,…,Ok} • Udfaldene skal være ”udtømmende” • Eksempler: • Terningkast: S={1,2,3,4,5,6} S={1,2,3,4,5} dur ikke! • Møntkast: S={plat, krone} S={plat} dur ikke • Udfaldene må ikke ”overlappe” • Terningkast: S={1,2,3,4,5,6} – S={1-2,2-3,3-4,4-5,5-6} dur ikke! Oi er i’te udfald af k mulige. (exhaustive)

Hændelser • En simpel hændelse er ett udfald i udfaldsrummet • Eksempel: Terningkast – en 6’er er en simpel hændelse • En hændelseer en delmængde af udfaldsrummet. En hændelse består typisk af mange udfald. • Eksempel: Terningkast : A={1,4,6} er en hændelse • Hændelser kan indtegnes i et Venn diagram S 2,3,5 A 1, 4, 6 Venn Diagram

Sandsynlighed • En sandsynlighed er et kvantitativt mål for usikkerhed – et mål der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed. • Sandsynligheden for en hændelse, A, betegnes P(A) • En sandsynlighed er et reelt tal mellem 0 og 1. • P(A) = 0 : Hændelsen A sker aldrig • P(A) = 1 : Hændelsen A sker altid • Ex: Sandsynligheden for regn i morgen er 0,5 • Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001

Klassisk Sandsynlighed • Antag at alle udfald forekommer med lige stor sand-synlighed. Da er sandsynligheden for en hændelse A givet ved: hvor • NA er antal udfald i hændelsen A. • N er antal udfald i udfaldsrummet S. • Eksempel: Terningkast – lige sandsynlighed for alle udfald. Lad A={1,2,4} • NA = 3 N = 6 • P(A) = 3/6 = 0.5

Regler for sandsynlighed • Givet et udfaldsrum S={O1, O2,…, Ok} da skal sandsynlighederne opfylde: 1) For enhver hændelse A i udfaldsrummet S • Dvs. sandsynligheden for en hændelse er et tal mellem 0 og 1. 2) For enhver hændelse A i udfaldsrummet S • Dvs. sandsynligheden for en hændelse er summen af sandsynlighederne for de simple hændelser indeholdt i A. 3) P(S) = 1 • Dvs summen af sandsynlighederne for alle simple hændelser i ufaldsrummet er 1.

Komplimentærmængden • Komplementet af en mængde A, er mængden Ā, der indeholder alle elementer i S, der ikke er i A. • Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er Ā={2,3,5} • Spørgsmål: Antag vi kender P(A) . Find P(Ā) = S 2,3,5 A 1, 4, 6 Ā

S A B A ∩ B 1, 2 3 4, 5 6 Fællesmængden • Fællesmængden af A og B, A ∩ B, er mængden, der indeholder de elementer, der er i både A og B • Eksempel: • A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne. • B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne. • A ⋂ B , hændelsen at både A og B indtræffer. • A ⋂ B = {3}

Foreningsmængden • Foreningsmængden af A og B, A U B, er mængden, der indeholder de elementer, der er i A eller B eller begge • Eksempel: • A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne. • B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne. • A ⋃ B , hændelsen at A og/eller B indtræffer. • A ⋃B = {1,2,3,4,5} S A B A U B 3 1, 2 4, 5 6

S A B A ∩ B 1, 2 3 4, 5 6 Spørgsmål • Antag vi kender følgende sandsynlighed • P(A) • P(B) • P(A ⋂ B) • Hvad er sandynligheden for A ⋃B • P(A ⋃B ) =

Den tomme mængde • Den tomme mængde betegnes Ø • P(Ø) = • To mængder er disjunkte, hvis fællesmængden A ∩ B=Ø • Dvs to disjunkte hændelser ikke kan indtræffe på samme tid (mutually exclusive). • Antag A ∩ B=Ø. Hvad er da P(A ⋃B) = ? S A A={1,2,3} B={4,5} A ∩ B={Ø} B 1, 2, 3 4, 5 6

Statistik Lektion 1