Statistiek 2

Statistiek 2 Hoofdstuk 2: Kansverdelingen en kansberekening Vanhoomissen & Valkeneers, hoofdstuk 2

Previously on Statistiek 2 • Onderzoek begint met een onderzoeksvraag. Daaruit wordt afgeleid wat de populatie is (verzameling waarover we een uitspraak willen doen) en wat de onderzoekseenheden zijn (de elementen van die verzameling). • Bedoeling van statistiek is om op basis van verzamelde data een onderbouwde beslissing te nemen over verband/verschil. We gebruiken hiervoor steekproeven omdat de hele populatie onderzoeken te omslachtig is. • Daarom zijn we nooit 100% zeker over onze beslissing. Dat is niet erg, zo lang we maar de mate van onzekerheid kennen. • Om die mate van onzekerheid te bepalen, hebben we kansberekeningen nodig. We willen vooral te weten komen hoe (on)waarschijnlijk het is om de verzamelde data te observeren. • Op basis daarvan kunnen we beslissen of een verband/verschil significant is. • Statistiek is geen wetenschap op zich. Statistische conclusies zijn pas waardevol als ook aan de randvoorwaarden voldaan is en statistiek niet misbruikt wordt. Hoofdstuk 2: Kansverdelingen en kansberekening

Vandaag Kansverdelingen en kansberekening Om antwoorden te geven op vragen als “Als ik straks op straat een willekeurige jongeling aan de haak sla, hoe groot is dan de kans dat hij groter is dan 1m75 maar kleiner dan 1m95?”

Kansen Kans = waarschijnlijkheid om een bepaalde gebeurtenis te observeren, uitgedrukt met een getal tussen 0 en 1 Hoe waarschijnlijk is het om een “3” te gooien met 1 worp van een dobbelsteen? -> P(3) = 1/6 (of 0.1666) of nog: Hoe waarschijnlijk is het om bij aselecte trekking van “een docent statistiek” de gebeurtenis “niet saai” te observeren? -> P(“niet saai”) = ??? Hoofdstuk 2: Kansverdelingen en kansberekening

Waarom kansen? Waarom kansen nodig in statistiek? Belangrijk doel in statistiek: op basis van steekproefgegevens conclusies trekken over populatie Soorten vragen: • Interval-estimatie • Hypothesetoetsing Hoofdstuk 2: Kansverdelingen en kansberekening

Waarom kansen? • Interval-estimatie • Vraag: Wat is het gemiddelde IQ van alle kinderen in het 1e jaar secundair onderwijs die 1 of meerdere jaren blijven zitten zijn in het basisonderwijs? • Antwoord op basis van gegevens uit steekproef: “Het gemiddelde IQ van alle kinderen in het 1e jaar SO die 1 of meerdere jaren blijven zitten zijn in het BaO ligt tussen X1 en X2 met 95% zekerheid.” • Betekenis: Indien je steeds deze bewering aanhoudt, dan weet je dat je in 5% van de gevallen fout zal zijn OF de kans op een fout is 0.05 -> zegt iets over nauwkeurigheid van de schatting van de populatieparameter op basis van de steekproefgegevens • Nodig: Steekproefstatistieken (gemiddelde, standaardafwijking, grootte steekproef) + Kansverdeling Hoofdstuk 2: Kansverdelingen en kansberekening

Waarom kansen? • Hypothesetoetsing • Hypothese: Het IQ van leerlingen in het 1e jaar SO die 1 of meerdere jaren in het BaO zijn blijven zitten (populatie 1) is gelijk aan het IQ van leerlingen 1e jaar SO die niet zijn blijven zitten (populatie 2). • Antwoord op basis van gegevens uit steekproef: “We verwerpen deze hypothese” of “We kunnen deze hypothese niet verwerpen”. • Nodig: Steekproefstatistieken (gemiddelde, standaardafwijking, grootte steekproef) + Kansverdeling • Waarom kansverdeling nodig? Stel dat we vinden dat IQ in steekproef 1 = 105 en IQ in steekproef 2 = 115 . • Hoe groot is de kans om dit verschil te vinden als er in werkelijkheid geen verschil is tussen de twee populatiegemiddelden? -> grote kans: hypothese niet verwerpen -> kleine kans: hypothese verwerpen Hoofdstuk 2: Kansverdelingen en kansberekening

Kansen Relevante begrippen Uitkomst = 1 enkelvoudig resultaat • “een 3” bij het gooien met een dobbelsteen • “Chad Smith” bij het trekken van een bandlid van RHCP Uitkomstenruimte = verzameling van alle mogelijke enkelvoudige uitkomsten • bij dobbelsteen {1,2,3,4,5,6} • bij trekking bandlid {Chad Smith, Anthony Kiedis, Flea, Josh Klinghoffer} Hoofdstuk 2: Kansverdelingen en kansberekening

Kansverdeling Kansverdeling = combinatie van uitkomstenruimte met respectievelijke kansen - overzicht van mogelijke waarden van een variabele en bijhorende kansen • bij dobbelsteen: Hoofdstuk 2: Kansverdelingen en kansberekening

Kansverdeling variabele = aantal ogen bij werpen van 2 dobbelstenen Hoofdstuk 2: Kansverdelingen en kansberekening

Kansverdeling Kansverdeling is analoog aan de frequentieverdeling (zie Statistiek 1) verschil: frequentieverdeling bij geobserveerde waarden kansverdeling bij theoretische waarden gemiddelde en standaardafwijking bij kansverdeling niet echt mogelijk wegens geen observaties, maar wél op basis van kansberekening Hoofdstuk 2: Kansverdelingen en kansberekening

Kansverdeling gemiddelde van de kansverdeling : verwachte waarde bv bij het gooien van 1 dobbelsteen: Hoofdstuk 2: Kansverdelingen en kansberekening

Kansverdeling Variantie van een kansverdeling: bv bij het gooien van 1 dobbelsteen: Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Een bijzondere kansverdeling: de steekproevenverdeling van het gemiddelde Stel: • We trekken uit een populatie een oneindig aantal steekproeven. • Elke steekproef wordt gekenmerkt door een aantal steekproefstatistieken zoals het gemiddelde. We krijgen dus een oneindig aantal steekproefgemiddelden waarvan we een verdeling kunnen opstellen. • Steekproevenverdeling van gemiddelde = alle mogelijke waarden van steekproefgemiddelden samen met de kansen op die steekproefgemiddelden • Daarna kunnen we dus de kans bepalen op het vinden van een bepaald steekproefgemiddelde. Hoofdstuk 2: Kansverdelingen en kansberekening

populatie steekproef steekproevenverdeling Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling We trekken een steekproef van n = 2 uit de populatie van getallen 2, 4, 6 Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Verwachte waarde van steekproevenverdeling = populatiegemiddelde  (2 + 4 + 6)/3 = 4 (1/9 x 2) + (2/9 x 3) + (3/9 x 4) + (2/9 x 5) + (1/9 x 6) = 4 -> gemiddelde van de steekproef is een ‘zuivere schatter’ van het gemiddelde van de populatie Schatter: we schatten met behulp van het steekproefgemiddelde het populatiegemiddelde Zuiver: er zullen geen systematische afwijkingen zijn wanneer men kijkt naar het gemiddelde van alle mogelijke steekproeven om de populatiegrootheid te schatten Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Standaardafwijking van steekproevenverdeling = standaardfout van gemiddelde standaardafwijking van populatie steekproefgrootte standaardafwijking van het gemiddelde Standard Error of standaardfout van het gemiddelde standaardafwijking van de steekproef indien niet gekend Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Hoe groter de steekproef, hoe kleiner de standaardfout Gemiddelde lengte van alle 20-jarige mannen = 180cm met een standaardafwijking van 10cm. Bij een steekproef van n = 300 Bij een steekproef van n = 700 Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Vorm van de steekproevenverdeling gemiddelde en standaarddeviatie van deze verdeling zijn bekend dus: als de verdeling normaal verdeeld is, kennen we het volledige verloop maar: is de verdeling normaal verdeeld? Centrale Limiet Theorema (A. De Moivre, 17E) Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Hoe groter de steekproef, hoe meer de normale verdeling benaderd wordt: (vb: gooien van 1 dobbelsteen) Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Vorm van de steekproevenverdeling • Als de populatie waaruit men steekproeven trekt normaal verdeeld is, dan is de steekproevenverdeling van het gemiddelde ook normaal verdeeld met een verwachte waarde μ en een standaardafwijking . • Als de populatie waaruit men een steekproeven trekt niet normaal verdeeld is, maar de steekproeven zijn groot genoeg (N > 30), dan zal de steekproevenverdeling bij benadering normaal verdeeld zijn met een verwachte waarde μ en een standaardafwijking . (wat als N < 30? zie later) • Als σ niet gekend is, mag men σ vervangen door de standaardafwijking van de steekproef als N > 100. Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Wat is er nu zo cool aan de steekproevenverdeling van het gemiddelde? Aangezien: • we het gemiddelde van deze verdeling kennen (µ) • we de standaardafwijking van de verdeling kennen ( of indien σ niet gekend is en N>100 : ) • we weten dat ze normaal verdeeld is (als populatie normaal verdeeld is of als N > 30) kunnen we z-scores berekenen en kansen uit de standaardnormaalverdeling halen! Hoofdstuk 2: Kansverdelingen en kansberekening

normale verdeling Waarom is die vorm zo belangrijk? • kennis over de verdeling van kansen van een bepaalde variabele maakt intervalestimatie en hypothesetoetsing mogelijk. • kansvariabelen die passen in theoretische verdeling (model) bieden meer mogelijkheden voor verwerking. • veelgebruikt model: normale verdeling (= vaak voorkomende verdeling van kansen in gedragswetenschappen) Hoofdstuk 2: Kansverdelingen en kansberekening

normale verdeling • normale verdelingen verschillen enkel in gemiddelde en standaarddeviatie. De curve is altijd klokvormig en symmetrisch. • kans om een waarde te observeren tussen 2 grenzen is gelijk aan de oppervlakte onder de curve • totale oppervlakte onder de curve is dus 1 Hoofdstuk 2: Kansverdelingen en kansberekening

normale verdeling Formule: f (X) = hoogte in curve π = 3.14 e = 2.72 μ = mu= verwachte waarde, gemiddelde van de normale verdeling -> bepaalt de plaats van het midden van de verdeling σ = sigma = standaardafwijking van de verdeling, spreiding van scores -> bepaalt hoe breed of smal de verdeling is (kleine sigma geeft smalle en hoge curve; grote sigma geeft brede en lage curve) Dus: μ en σ bepalen de normaalverdeling er zijn vele soorten normaalverdelingen (naargelang μ en σ ) Hoofdstuk 2: Kansverdelingen en kansberekening

normale verdeling Verschillende μ , gelijke σ Gelijke μ , verschillende σ Hoofdstuk 2: Kansverdelingen en kansberekening

normale verdeling • Totale oppervlakte onder curve = 1 Hoofdstuk 2: Kansverdelingen en kansberekening

normale verdeling • Kans op een waarde in bepaald gebied = oppervlakte onder curve Hoofdstuk 2: Kansverdelingen en kansberekening

normale verdeling .3413 .3413 .0228 .0228 .1359 .1359 μ-3σμ -2σμ -σμμ +σμ +2σμ +3σ Hoofdstuk 2: Kansverdelingen en kansberekening

normale verdeling .3413 .3413 .0228 .0228 .1359 .1359 μ-3σμ -2σμ -σμμ +σμ +2σμ +3σ IQ is normaal verdeeld met μ = 100 en σ = 15ongeveer 68% heeft IQ tussen 85 en 115ongeveer 95% heeft IQ tussen 70 en 130ongeveer 2.3% heeft een IQ lager dan 70; ongeveer 2.3% heeft een IQ hoger dan 130 Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling Standaardnormale verdeling • Eén bepaald type normale verdeling • Namelijk met μ = 0 en σ = 1 Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling Waarom die speciale verdeling? • bij normaal verdeelde gegevens -> kans afleiden uit oppervlakte onder de curve • oppervlakte berekenen = heel omslachtig -> beter aflezen uit tabel • onmogelijk om van elke normale verdeling een tabel op te stellen (oneindige verzameling) => slechts 1 tabel opstellen en elke normale verdeling transformeren naar de verdeling waarvoor de tabel is gemaakt, nl. de standaardnormale verdeling Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling Hoe gaat dat in zijn werk? Transformatie van normale verdeling: vorm blijft behouden, maar µ en σ worden resp. 0 en 1. Transformatie = “standaardiseren” = Z-waarden berekenen: De verdeling is dan standaardnormaal en de kansen kunnen afgelezen worden uit de tabel voor de standaardnormale verdeling. Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ groter of gelijk aan 112? Stap 1: dus: Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling Stap2: kans van waarde 0.8 opzoeken in tabel Z = 0.80 P(z <0.80) = 0.7881 P(z ≥ 0.80) = 1 – 0.7881 Pr(0.80) = 0.2119 Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling Andere soorten oefeningen ivm kansberekening: analoog aan berekening van percentages in statistiek 1 (hoofdstuk 6). Voor herhaling: zie slides achteraan. Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling We kunnen nu dus raadsels als deze oplossen: • We hebben een normaal verdeelde populatie met μ = 100 en σ = 15. Uit deze populatie trekken we een steekproef van n = 40. Het gemiddelde van de steekpoef is 102 en de standaardafwijking is 14. Hoe groot is de kans op een steekproefgemiddelde van 102 of hoger? • Wat is gevraagd? P(X ≥ 102) • Is de steekproevenverdeling normaal verdeeld? Ja, want de populatie is normaal verdeeld Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Dus: Stap1: z-score berekenen Stap 2: kans van z-score bepalen via standaardnormale verdeling Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Z = 0.84 P(z ≥ 0.84) = 1 - P(z ≤0.84) = 1 - 0.7995 = 0.2005 Hoofdstuk 2: Kansverdelingen en kansberekening

De steekproevenverdeling Dus: P(z ≥ 0.84) = 0.2005 Conclusie: De kans op een gemiddelde van 102 of groter is 0.20 We kunnen dus de kans berekenen op het voorkomen van een bepaald gemiddelde van een steekproef. M.a.w.: we kunnen nagaan of ons steekproefgemiddelde uitzonderlijk is of juist heel acceptabel. En dat is net wat we nodig hebben om hypotheses te toetsen!! Hoofdstuk 2: Kansverdelingen en kansberekening

Samengevat Kansen zijn van groot belang in onderzoek omdat ze ons in staat stellen om te beslissen of een observatie heel uitzonderlijk is of eerder heel gewoon. Om kansen te berekenen maken we gebruik van kansverdelingen: theoretische verdelingen van mogelijke waarden en bijhorende kansen van een variabele. In de psychologie wordt de normale verdeling vaak gebruikt, aangezien veel kenmerken van mensen als normaal verdeeld in de populatie worden beschouwd. Omdat voor elk kenmerk een normale verdeling met een ander gemiddelde en standaarddeviatie geldt, is het onmogelijk om voor elke verdeling de exacte kansen te kennen. Daarom herleiden we die normale verdeling naar een standaardnormale verdeling door z-scores te berekenen. Daarna kunnen we de kansen van de z-scores aflezen uit een tabel. Een specifieke kansverdeling is de steekproevenverdeling van het gemiddelde, waarmee we kunnen uitrekenen hoe groot de kans is om een bepaald gemiddelde te observeren. Hoofdstuk 2: Kansverdelingen en kansberekening

Herhalingsoefeningen: kansen berekenen in de normale verdeling. (zelfstudie – zie statistiek 1)

Standaardnormale verdeling scenario 1 IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ groter of gelijk aan 112? Stap 1: dus: Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling Stap2: kans van waarde 0.8 opzoeken in tabel Z = 0.80 P(z <0.80) = 0.7881 P(z ≥ 0.80) = 1 – 0.7881 Pr(0.80) = 0.2119 Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling ? -0.867 scenario 2 IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ groter of gelijk aan 87? Stap 1: Stap 2: P(z ≥ -0.867)=? Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling Stap2: kans van waarde -0.867 opzoeken in tabel Probleem: tabel bevat enkel kansen voor positieve z-waarden! Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling Gelukkig is de standaardnormale verdeling symmetrisch! Dus: P ( z ≤ -0.867) = P ( z ≥ 0.867) En ook: P (z ≥ -0.867) = P ( z ≤ 0.867) P (z ≤ -0.867) P (z ≥ 0.867) Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling En uit de tabel lezen we af: P ( z ≤ 0.867) = 0.8078 = P (z ≥ -0.867) Hoofdstuk 2: Kansverdelingen en kansberekening

Standaardnormale verdeling scenario 3 IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ kleiner of gelijk aan 114? Stap 1: Stap 2: P(z ≤ 0.93)=? Lees rechtstreeks af uit de tabel: P(z ≥ 0.93) = 0.8238 Hoofdstuk 2: Kansverdelingen en kansberekening

Statistiek 2

Statistiek 2

Presentation Transcript

Help! Statistiek!

Statistiek

Help! Statistiek!

Help! Statistiek!

Help! Statistiek!

STATISTIEK I College 2

Statistiek

Help! Statistiek!

Help! Statistiek!

Help! Statistiek!

Statistiek

Statistiek II

Statistiek 2

Help! Statistiek!

Statistiek 2

Statistiek 2

Wiskunde statistiek

Help! Statistiek!

Help! Statistiek!

Help! Statistiek!

Statistiek

Help! Statistiek!