250 likes | 523 Views
Statistiek voor Dataverwerking. H. R. Zielman ICT , voorjaar 2004 boek: Weiss, N.A., Elementary Statistics. Agenda. Herhalen beschrijvende statistiek Kans Kansrekening Kansverdeling Binomiale verdeling Hypergeometrische verdeling Normale verdeling + benaderingen. Liggings schalen.
E N D
Statistiek voor Dataverwerking H. R. Zielman ICT , voorjaar 2004 boek: Weiss, N.A., Elementary Statistics
Agenda • Herhalen beschrijvende statistiek • Kans • Kansrekening • Kansverdeling • Binomiale verdeling • Hypergeometrische verdeling • Normale verdeling + benaderingen ZIL/ICT Data verwerking (STAT)
Liggings schalen ZIL/ICT Data verwerking (STAT)
Boxplot • Grafiek waarin karakteristieken van een verdeling weergegeven worden • Bepaal Q1,Q3, mediaan, xmin en xmaxen 1,5 * (Q3 - Q1) • Trek een box van Q1 tot Q3 • Geef mediaan aan • trek lijnen van box tot berekende grens • geef eventuele uitbijters aan ZIL/ICT Data verwerking (STAT)
Klassificeren • Ordenen van n gegevens • Aantal klassen: • Klassen zijn b.v.k. even breed ZIL/ICT Data verwerking (STAT)
Histogram • Horizontale as (ratio-schaal) verdelen in intervallen • Kolom plaatsen boven elk interval • Oppervlak van kolom geeft frequentie aan! • Kolomhoogte: frequentie / kolombreedte • Assen: als andere figuren ZIL/ICT Data verwerking (STAT)
Histogram 2 • Boekenprijzen (Hfl): • 25 45 35 25 30 70 20 45 65 30 40 4035 45 55 35 32 3728 45 49 39 40 6029 34 47 35 45 4935 45 34 28 34 5448 38 32 39 45 58 ZIL/ICT Data verwerking (STAT)
Histogram 3 • Aantal klassen: (42) = 7 • hoogste - laagste = 70 - 20 = 50 • klasse breedte ca. 50 / 7 ca. 7 ZIL/ICT Data verwerking (STAT)
Histogram 4 • klasse frequentie freq/kb (eenh=5)17,5 - 27, 5 3 3/227,5 - 32,5 7 7/132,5 - 37,5 9 9/137,5 - 42,5 6 6/142,5 - 47,5 8 8/147,5 - 57,5 5 5/257,5 - 77,5 4 4/2 ZIL/ICT Data verwerking (STAT)
Kans - definities • Laplace: P(gebeurtenis) = gunstig/totaal • Experimenteel: P(gebeurtenis)= ng / nt • Axiomatisch • totale kansruimte: S, uitkomst deelvz A • i P(S) = 1 • ii 0 P(A) 1 voor alle A • iii P (A B C …) = P(A) + P(B) + …. ZIL/ICT Data verwerking (STAT)
Termen • Toevalsvariabele / kansvariabele / stochastische variabele / stochast :Numerieke waarde die aan elke uitkomst van een experiment wordt toegekend • Stochast is een functie die gedefinieerd is op de uitkomstenruimte v.e. kansexperiment ZIL/ICT Data verwerking (STAT)
Voorbeelden • Discrete stochast:2 * werpen munt:{ KK, KM, MK, MM } -> { 0, 1, 2 }( P(1) = 0,5 , P(2) = 0,25 ) • Continue stochast:Tijd tussen 2 * opwerpen:(P (0:00:02:05) = 0 ) • (probleem: kans op precies deze waarde is heeeel klein) ZIL/ICT Data verwerking (STAT)
Gebruik • Naam v. discrete stochast : k (Weiss: K of X) • uitkomst v. discrete stochast: k • naam v. continue stochast: x • uitkomst v. continue stochast: x • {0,1,2} vormen de uitkomsten verzameling • Bij elke uitkomst hoort kans 0, = 1 ZIL/ICT Data verwerking (STAT)
Kans rekening • Som regel:P ( A B) = P(A) + P(B) - P ( AB) • Produkt regel:P ( A B) = P(A) * P(B) • bij ONafhankelijke gebeurtenissen ZIL/ICT Data verwerking (STAT)
Kans functie • : f(k) weergave v.d. kansen uit experiment • : f(k) = P(k = k) : de kans dat de stochast kde waarde k aanneemt • : f(k) >= 0 • : kf(k) = 1 ZIL/ICT Data verwerking (STAT)
Kans verdeling • Complete beschrijving v.e. random variabele, dus een overzicht van alle mogelijke uitkomsten v.e. kansexperiment met de bijbehorende kans. • tabel • formule • grafiek • Zie de beide volgende sheets uit Weiss ZIL/ICT Data verwerking (STAT)
Vb. Weiss Table 5.7: Probability distribution of the random variable X, the number of siblings of a randomly selected student ZIL/ICT Data verwerking (STAT)
Vb. Weiss Figure 5.21: Probability histogram of the random variable X, the number of siblings of a randomly selected student ZIL/ICT Data verwerking (STAT)
Ligging & spreiding • Verwachtingswaarde E (k) k k * f(k) = k k P(k = k) • k • VariantieVar (k) k (k - E(k))2 * P(k = k) • 2k • k = Var(k) ZIL/ICT Data verwerking (STAT)
Binomiale verdeling • Twee mogelijke uitkomstensucces met kans p, falen met q = ( 1 - p) • Experiment wordt n keer herhaald • n P(k)=k = pk qn-k k • E(k) = n*p, Var(k) = n * p * q ZIL/ICT Data verwerking (STAT)
Vb Weiss Table 5.20: Probability distribution of the random variable X, the number of people out of three that are alive at age 65 (overlevingskans 20-jarigen tot 65 p = 0.8) ZIL/ICT Data verwerking (STAT)
Vb Weiss Fig 5.25: Probability histogram for the random variable X, the number of people out of three that are alive at age 65 ZIL/ICT Data verwerking (STAT)
Figure 5.26: Probability histograms for binomial distributions with parameters n = 6 and (a) p = 0.25, (b) p =0.5, (c) p = 0.75 ZIL/ICT Data verwerking (STAT)
Andere discrete verdelingen • Hypergeometrische verdeling:n * trekken ZONDER teruglegging uit een populatie N waarvan M element MET een bepaald kenmerk zijn (bord->uitleg) • Poisson verdeling:aantal gebeurtenissen in een periode/gebied • aantal deeltjes gif (ppm) in vis • aantal server requests per minuut ZIL/ICT Data verwerking (STAT)
Continue verdelingen • Normale verdeling • Negatief exponentieel (wachttijden)beknopt op het bord ZIL/ICT Data verwerking (STAT)