310 likes | 464 Views
Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning. Introduktion. Kasper K. Berthelsen, Institut f. Mat. Fag 8 Kursusgange Individuel mundtlig eksamen (7-skala) Udgangspunkt i opgaver Software: SPSS – I kan hente en CD hos…. Flyskræk!. Passer overskriften?
E N D
Statistik Introduktion Deskriptiv statistik Sandsynslighedregning
Introduktion • Kasper K. Berthelsen, Institut f. Mat. Fag • 8 Kursusgange • Individuel mundtlig eksamen (7-skala) • Udgangspunkt i opgaver • Software: SPSS – I kan hente en CD hos…
Flyskræk! • Passer overskriften? • Politiken 6/12-’07 • Er du tryg ved at flyve? • Ja: 86% i 2005 83% i 2007 • Er der virkelig sket en ændring eller kunne det lige så godt være tilfældigt? • Svaret kommer til sidst i kurset ;-)
BMI blandt mænd og kvinder (i Kbh) • BMI = vægt/højde2 • Er der en signifikant forskel i middel BMI for mænd og kvinder?
Deskriptiv statistik:Metoder til at organisere og præsentere data på en informativ måde. Inferential statistikMetoder til at konkludere noget ud fra data. Eksempel: Hvad er middel-længden af en hugorm? Er den større en 50? Deskriptiv versus inferential statistik
Nogle definitioner • Population: Mængden af alle ”individer” vi er interesserede i.fx alle virksomheder i DK • Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians). fx gennemsnits antal ansatte • Sample/stikprøve: Mængde af data taget fra en delmængde af populationen fx 10 tilfældigt udvalgte virksomheder • Statistik: Et deskriptivt mål for stikprøven. fx gennemsnits antal ansatte blandt de 10. • Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type
Diskrete data Katagoriske data, for eksempel: Hvilken øjenfarve? Brun Blå Grøn Grå Kontinuerte data Data, der er reelle tal, eks: Højde Vægt Temperatur Hastighed Osv.... Diskrete og kontinuerte data
Data hierarki • Interval skala fx. højde. • Data kan placeres på en skala, hvor man kan sammenligne afstande mellem data punkter. • Kan også behandles som ordinale eller nominale data • Ordinal skala fx. løngruppe (lav, middel, høj) • Data kan ordnes på en skala. Beregninger kan baseres på ordningen. • Kan opfattes som nominale data. • Nominal skala fx. farve (rød,grøn,blå) • Kun beregninger baseret på antal obs. i hver kategori må udføres. Kan ikke opfattes som ordnede eller interval data.
Percentiler og kvartiler • Den P’te percentil af en mængde data punkter, er den værdi hvor P % af dataene ligger under. • Positionen af den P’te percentil er givet ved (n+1)P/100, hvor n er antallet af data punkter. • Kvartiler er de procent point, der inddeler data i kvarte. • 1. kvartil er 25 percentilen. Under denne ligger 25 % af data. • 2. kvartil er 50 percentilen. Under denne ligger 50 % af data. Kaldes også medianen. • 3. kvartil er 75 percentilen. Under denne ligger 75 % af data. • Den interkvartile range defineres som afstanden mellem den første og den tredje kvartil.
Central lokation i stikprøve • Stikprøvens størrelse: n • Gennemsnit: • Interval data • Median: Den midterste observation • Interval og ordinal • Mode: Den observation, der forekommer med størst frekvens • Interval, ordinal og nominal Frekvens = antal gange en observation forekommer SPSS: Analyze→Descriptive Statistics→Frequencies
Variation (interval data) • Range: største – mindste observation • Stikprøve varians • Standard afvigelse Bemærk: n-1 og ikke n.
Populations parametre Deskriptive mål for populationen • Populationens størrelse: • Populations middelværdi: • Populations varians: • Populations spredning: Bemærk: N og ikke N-1.
Grafik præsentation: Histogram Antal $ brugt af 184 kunder i en butik. 31 kunder brugte for mellem 350$ og 450 $ SPSS: Graphics→…
Box Plot Et Box Plots Anatomi Smallest data point not below inner fence Largest data point not exceeding inner fence Ekstrem Outlier * o X X Q1 Median Q3 Inner Fence Outer Fence Inner Fence Outer Fence Q1-1.5(IQR) Q3+1.5(IQR) Interquartile Range (IQR) 50% af data Q1-3(IQR) Q3+3(IQR)
Sandsynligheder Mængder Hændelser Sandsynligheder Regler for sandsynligheder
Sandsynligheder • En sandsynlighed er et kvantitativt mål for usikkerhed – et mål der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed. • En sandsynlighed er et reelt tal mellem 0 og 1. • 0 = sker aldrig 1 = sker altid • Ex: Sandsynligheden for regn i morgen er 0,5 • Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001 • I modsætning til deterministiske hændelser: • Det er juleaften den 24. december • I morgen står solen op kl. 8.04 • Forskellige statistiske retninger: • Klassisk • Frekventistisk (jeres, fortrinsvist) • Subjektiv (Bayesiansk) • Den klassiske sandsynlighedsteori blev udviklet i 1600 tallet – inspireret af Casino spil!
Lidt om mængder • En mængde er en samling af elementer • Eksempel: A={1,2,3,4} eller A={plat, krone} • Den tomme mængde A=Ø, indeholder ingen elementer • Den universelle mængde S, indeholder alle elementer • Komplementet af en mængde A, er mængden Ā, der indeholder alle elementer i S, der ikke er i A. • Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er Ā={2,3,5} S 2,3,5 A 1, 4, 6 Ā Venn Diagram
Mere om mængder • Fællesmængden af A og B, A ∩ B, er mængden, der indeholder de elementer, der er i både A og B • Foreningsmængden af A og B, A U B, er mængden, der indeholder de elementer, der er i A eller B eller begge S A A={1,2,3} B={3,4,5} A ∩ B={3} B A ∩ B 1, 2 3 4, 5 6 S A A={1,2,3} B={3,4,5} A U B={1,2,3,4,5} B A U B 3 1, 2 4, 5 6
Den tomme mængde • To mængder er disjunkte, hvis fællesmængden A ∩ B=Ø S A A={1,2,3} B={4,5} A ∩ B={Ø} B 1, 2, 3 4, 5 6
Mere om sandsynlighed • Eksperiment: • Handling, der leder frem til et af flere mulige udfald • Fx. Kast med en terning eller Vælg 10 tilfældige virksomheder. • Udfald: • Observation eller måling • Fx: Antal øjne på en terning eller 10 navngivne virksomheder.
Mere om sandsynlighed • Udfaldsrum: • En liste af mulige udfald af eksperimentet, lig med den universelle mængde S={o1,o2,…,ok} • Udfaldene skal være ”udtømmende” • Eksempler: • Terningkast: S={1,2,3,4,5,6} – S={1,2,3,4,5} duer ikke! • Møntkast: S={plat, krone} – S={plat} duer ikke • Udfaldene skal være disjunkte • Terningkast S={1,2,3,4,5,6} – S={1-2,2-3,3-4,4-5,5-6} dur ikke! Oi er i’te udfald af k mulige.
Hændelser • En simpel hændelse er et udfald i udfaldsrummet • Eksempel: Terningkast – en 6’er er en simpel hændelse • En hændelseer en mængde af en eller flere simple hændelser i et udfaldsrummet • Eksempel: Terningkast – A={2,3,4} er en hændelse • Sandsynligheden for en hændelse, A, betegnes P(A) • P(A) er summen af sandsynlighederne for de simple hændelser i A • Eksempel: P(A)=P(2)+P(3)+P(4)=1/6+1/6+1/6=3/6
Hændelser • Antag at alle simple hændelser forekommer med lige stor sandsynlighed. Da er sandsynligheden for en hændelse A givet ved: • Eksempel: Terningkast – lige sandsynlighed for alle udfald. Lad A={1,2,4} • n(A) = 3 n(S) = 6 • P(A) = 3/6 = 0.5
Regler for sandsynlighed • Givet et udfaldsrum S={o1,o2,…,ok} da skal sandsynlighederne opfylde: • Eksempel: Terningkast – lige sandsynlighed for alle udfald:
Flere regler • Sandsynligheden for Ā: • P(Ā)=1-P(A) • Sandsynligheden for Ø: • P(Ø)=0 • Sandsynligheden for S: • P(S)=1 • Fællesmængden for hændelserne A og B, A ∩ B, er hændelsen, der forekommer, når både A og B forekommer • Sandsynligheden for A ∩ B, P(A ∩ B), kaldes den simultane sandsynlighed (joint probability)
Betinget sandsynlighed • Den betingede sandsynlighed P(A|B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet:
Eksempel (Kontingenstabel) Frekvenser IBM Total AT& T Telecommunication 40 10 50 Sandsynligheden for at et projekt udføres af IBM givet at det er et telekommunikations-projekt: Computers 20 30 50 Total 60 40 100 Sandsynligheder AT& T IBM Total Telecommunication .40 .10 .50 Computers .20 .30 .50 Total .60 .40 1.00
Additionsreglen • Sandsynligheden for foreningen mellem to mængder A og B, A U B, er givet som: • P(A U B) = P(A) + P(B) – P(A ∩ B) • Hvis A og B er disjunkte hændelser, er P(A ∩ B) = 0 og dermed: • P(A U B) = P(A) + P(B) • Eksempel: Sansynlighed for at et projekt er IBM eller Telekom: