760 likes | 1.18k Views
Beginselen van de Statistiek in de Kinesiologie. Prof. Dr. I. De Bourdeaudhuij Theorie : auditorium Oefeningen : SPSS pc klas UZ. Handboek : . Statistiek in de Praktijk Davis Moore & George McCabe 2001 3e herziene uitgave / Theorieboek Academic Service, Schoonhoven.
E N D
Beginselen van de Statistiek in de Kinesiologie Prof. Dr. I. De Bourdeaudhuij Theorie : auditorium Oefeningen : SPSS pc klas UZ
Handboek : Statistiek in de Praktijk Davis Moore & George McCabe 2001 3e herziene uitgave / Theorieboek Academic Service, Schoonhoven
Alles is te vinden op : • http://allserv.rug.ac.be/~ibourd/index.htm
Inleiding • Redeneren, nadenken, inzicht <=> • Berekenen, computer • Link met praktijk : SPSS voor thesis
Wat is statistiek ? • Wetenschap van • verzamelen • organiseren • interpreteren van data of gegevens
Doel van statistiek ? • NIET het berekenen op zich • WEL het verwerven van inzicht uit getallen Doel van deze cursus = BEGRIJPEN
Hoofdstuk 1 Kijken naar gegevens & verdelingen
Variabele = kenmerk van persoon of ding dat in een getal kan worden uitgedrukt • Waarde = getal voor die persoon of dat ding • Hoeveel variabelen ? H1 = 1 variabele • Typen variabelen • Kwantitatieve variabelen (numeriek, bewerking) • Kwalitatieve variabelen (categorie)
1.1. Weergeven van verdelingen met grafieken • Data beschrijven : exploratieve data-analyse • Twee basistrategieën • Eerst 1 variable dan verbanden • Eerst grafisch dan numeriek • H 1 : 1 variable , H2 : 2 variabelen • Steeds eerst grafisch dan numeriek
A. Grafieken voor kwalitatieve variabelen • Kwalitatieve variabelen = categorie
Grafieken voor kwalitatieve variabelen geven een goed overzicht, niet echt noodzakelijk • Grafieken voor kwantitatieve variabelen leren ons duidelijk iets meer, data op zich zeggen niet veel
B. Meting • Verzameling getallen 168 158 149 169 175 185 192 167 185 184 168 184 • Welke variabele wordt gemeten ? - goede methode / instrument ? - verschillend per wetenschap
NADENKEN over getallen bv. dodelijke ongevallen 5000 60+ers 3000 18-20 jarigen bv. werkloosheidscijfers bv. mortaliteitscijfers Verhoudingsgetallen !!!
C. Variatie • Verschillende metingen van hetzelfde fenomeen bij - 1 persoon - verschillende personen • In elke verzameling gegevens zekere variatie • Variatiepatroon van een kwantitatieve variabele = VERDELING
In het midden van de verdeling : het gemiddelde • VERDELING = hoe vaak komt elke waarde voor ? Grafische voorstelling • DUS : gemiddelde & verdeling van variabelen zijn belangrijk
D. Stamdiagrammen • Of « stam-en-blad » = « stem-and-leaf » • Doel : vorm van de verdeling in beeld • Voorbeeld : doelpunten per seizoen 21 13 8 19 14 26 12 24 9 14 STAM BLAD 0 | 89 1 | 23449 2 | 146
Rug-aan-rug stamdiagram : 2 vergelijken • stammen splitsen of afkappen • niet geschikt voor grote groepen • diagram op zijn kant zetten (scheefheid ?)
E. Onderzoeken van verdelingen EIGENSCHAPPEN : 1. Centrum van de verdeling = MEDIAAN 2. Een top of verschillende ? = UNI MODAAL 3. Vorm van de verdeling = SYMMETRISCH of SCHEEF 4. Afwijkingen van de algemene vorm = HIATEN of UITBIJTERS
F. Histogrammen • Aantal of percentage waarnemingen in elk interval • HOE ? 1. Verdeel in klassen van gelijke breedte 2. Aantal per klasse = frequenties Frequentietabel 3. Histogram tekenen
In histogram frequenties of percentages = relatieve frequenties • Keuze maken over aantal te gebruiken klassen te weinig of te veel
G. Kijken naar gegevens • Globaal patroon en afwijkingen • Uitbijters of uitschieters : • oorzaak ? • Fouten = weglaten • Sterke beïnvloeding van gemiddelde • Soms hebben uitbijters een betekenis
H. Tijdreeksgrafieken • Gegevens uitzetten tegen tijd of volgorde • Belangrijk bij systematische verandering • Bv. Tijdreeksen : springen tijden in lopen/zwemmen • Observatie : trend seizoenvariatie fluctuaties cycli
1.2. Verdelingen beschrijven • Eerst kijken naar de vorm van de verdeling op grafische manier • Dan beschrijven : • Centrum • Spreiding
Meten van het centrum : het gemiddelde Rekenkundig gemiddelde of gemiddelde = tel alle waarnemingen op en deel door het aantal x1 + x2 + x3 + … +xn x = 1/n (x1 + x2 + x3 + … +xn) x = 1/n xi
Voorbeeld : Aantal doelpunten per match 2 3 1 0 0 1 2 1 2 1 2 0 0 3 = 18 / 14 = 1.2857…. • Voorbeeld : Verspringen 623 684 598 385 654 589 = 3533 / 6 = 588.83333…. = 3148 / 5 = 629.6
Zwakheid van gemiddelde : • > gevoelig voor extremen • bv. uitbijters of uitschieters • bv. scheve verdeling met 1 staart = gemiddelde is GEEN resistente maat
B. Meten van het centrum:de mediaan • Mediaan = middelste waarneming in geordende lijst • oneven = middelste • even = gemiddelde van twee middelste
Voorbeeld : aantal doelpunten per match : 2 3 1 0 0 1 2 ordenen : 0 0 1 1 2 2 3 Mediaan = 1 • Mediaan gemakkelijk uit stamdiagram • Mediaan is resistente centrummaat
C. Gemiddelde versus mediaan • Bij symmetrische verdeling • gemiddelde = mediaan • Naarmate verdelingen schever worden • gemiddeld en mediaan verder uit elkaar • Dus : bij uitschieters • Goed bekijken, ev. Corrigeren of weglaten • Gemiddelde gebruiken • Uitschieters erin laten • Mediaan gebruiken
D. Meten van de verdeling: kwartielen • Bij het beschrijven van een verdeling : • > centrummaat + spreidingsmaat • Spreiding of variabiliteit van een verdeling • Gelijk gemiddelde en verschillende spreiding => andere betekenis (bv. inkomen)
Percentiel 30ste percentiel = de waarde zodat 30% van de verdeling hieronder valt of gelijk is bv. kind van 7 jaar weegt 22 kg. 50ste percentiel = mediaan
Kwartielen 1ste kwartiel = 25ste percentiel 2de kwartiel = 50ste percentiel of mediaan 3de kwartiel = 75ste percentiel -> waarnemingen ordenen Mediaan bepalen Mediaan van waarnemingen hieronder Mediaan van waarnemingen hierboven
Kwartielen en mediaan leren iets over de verdeling Q1 = 14€ M = 20€ Q3 = 33€ -> scheefheid naar rechts • Met computer soms iets andere waarden voor kwartielen : andere regels • Kleine verschillen = afrondingsfouten
E. Meten van de verdeling : de interkwartielafstand • Interkwartielafstand IKA = afstand Q3 - Q1 = 50% van de data resistente maat : uitschieters spelen geen rol 33€ - 14€ = 19€
1.5 keer IKA boven 3e kwartiel of onder 1e kwartiel = verdachte uitschieters 1.5 keer 19€ = 28.5€ Q1= 14€ - 28.5€ = -14.5€ Q3= 33€ + 28.5€ = 61.5€
F. De vijf getallen samenvatting en de doosdiagrammen • Vijf getallen samenvatting Minimum, Q1, M, Q3, Maximum => Geeft ons nuttige informatie over het centrum en de spreiding van een verdeling
Boxdiagram of doosdiagram = visuele voorstelling van vijf getallen samenvatting • 1. Randen van de doos = kwartielen • 2. Mediaan = lijn • 3. Snorharen = Minimum en maximum die geen uitschieters zijn • 4. Uitschieters worden apart aangegeven • Met computer soms snorharen tot uitersten binnen 1.5 keer IKA en resterende waarnemingen afzonderlijk of zonder uitschieters
G. Verdelingen vergelijken • Boxdiagrammen om verschillende verdelingen met elkaar te vergelijken
H. Meten van de spreiding: de standaardafwijking • Meest gebruikte spreidingsmaat • Spreiding rond het gemiddelde • Gebruiken als gemiddelde centrummaat is • Gebaseerd op afwijking van elke waarneming van het gemiddelde xi - gemiddelde
afwijkingen zullen positief en negatief zijn • Want waarnemingen boven en onder het gemiddelde • som van alle afwijkingen zal altijd 0 zijn • Juist omdat we gemiddelde aftrekken • Oplossing : afwijkingen kwadrateren • VARIANTIE = gemiddelde van de gekwadrateerde afwijkingen (s2) ver van gemiddelde : grote gekwadr. afwijk. dicht bij gemiddelde : kleine gekw. afw.
S2= (x1 - x)2 + (x2 - x)2 + … en delen door n-1 S2= 1/(n-1) (xi - x)2 waarom delen door n-1 en niet door n ? => aangezien som van afwijkingen steeds 0 is kan laatste afwijking gevonden worden uit eerste n-1, dus n-1 kunnen vrij bewegen = aantal vrijheidsgraden
Door te kwadrateren krijgen we een andere eenheid bv. cm wordt cm2 • STANDAARDAFWIJKING = de wortel uit de variantie wat de spreiding rond het gemiddelde in de oorspronkelijke schaal meet
I. Eigenschappen van de standaardafwijking • Eigenschappen van s • s meet de spreiding rond het gemiddelde (gemiddelde is centrummaat) • s = o als er geen spreiding is (alle waarnemingen zijn gelijk), anders is s > 0 • s is geen resistente maat, door kwadraten zelfs nog gevoeliger • s is vooral belangrijk bij symmetrische verdelingen (normaalverdelingen)
J. Het kiezen van centrum- en spreidingsmaten • Voor een scheve verdeling of sterke uitschieters : • Vijf getallen samenvatting • Voor een redelijk symmetrische verdeling zonder uitschieters • Gemiddelde en standaarddeviatie => DUS altijd eerst grafische voorstelling maken
K. Meeteenheid veranderen • Beschrijvingen van een verdeling kunnen geconverteerd worden van de ene naar de andere meeteenheid • > lineaire transformatie xnieuw = a + bx = optellen van een constante a = vermenigvuldigen met constante b (b>0) • bv. mijl in kilometer • bv. graden celcius en Fahrenheit
Lineaire transformaties hebben geen effect op de vorm van de verdeling • symmetrisch blijft symmetrisch • scheef naar rechts blijft scheef naar rechts • Maar centrum en spreiding kunnen wel veranderen • gemiddelde, mediaan en kwartielen : vermenigvuldigen met b en a optellen • IKA en standaardafwijking vermenigvuldigen met b