430 likes | 742 Views
Deel 1. Meten van onderzoeksvariabelen. Chapter 11. Measuring Research Variables. Validiteit van instrumenten. Validiteit = de mate waarin de test of het instrument meet wat hij bedoelt te meten Belangrijkste criterium = degelijkheid van de test. 1.1. Logische validiteit.
E N D
Deel 1 Meten van onderzoeksvariabelen Chapter 11. Measuring Research Variables
Validiteit van instrumenten • Validiteit = de mate waarin de test of het instrument meet wat hij bedoelt te meten • Belangrijkste criterium = degelijkheid van de test
1.1. Logische validiteit • Wordt soms ‘face validity’ genoemd = voor de hand liggend, duidelijk • Bv. Evenwicht – op één been Snelheid lopen – tijd over afstand • Meestal meer objectieve methoden
1.2. Inhoudsvaliditeit • Meestal gebruikt in opleiding • = Als de test dekt wat in de les is gegeven Op basis van - doelstellingen en gewicht • Ook geen statistische manier om te bepalen
1.3. Criterium validiteit • Instrumenten worden gevalideerd ten opzichte van een criterium • Twee soorten : • Concurrente validiteit • Predictieve validiteit
Concurrente validiteit • Correlatie van het instrument met een criterium op zelfde moment • Criterium is dan een reeds gevalideerd, aanvaard instrument OF scores van beoordelaars of prestaties • Typisch gebruik om een test korter of minder moeilijk te maken
Voorbeeld : • VO2 max correleren met trappen lopen • sportcompetentie test correleren met scores van beoordelaars • Goede keuze van het criterium is essentieel
Predictieve validiteit • Criterium dat voorspeld moet worden bv. Succes, slagen of prestaties • Standaard van het criterium mag niet te hoog of laag zijn, weinig voorspelbaarheid • Meestal niet 1 correlatie coëfficiënt maar verschillende predictoren : multiple regressie
Voorbeeld : Gebruik van huidplooien om % vet te meten • Meestal minder predictieve validiteit van dezelfde formule bij andere sample = inkrimping • Oplossing = cross-validatie : • bij 2e sample zelfde formule en correlatie tussen voorspelde en actuele scores • Vergelijking tussen R2 en r2 geeft inkrimping
1.4. Construct validiteit • Indien niet observeerbare constructen gemeten worden bv. intelligentie, angst, attitude, creativiteit, … • Mate waarin de test dit construct meet door te relateren aan een bepaald gedrag • Bv. Test om ‘fair play’ te meten en observeren tijdens wedstrijd
Methode van de gekende groepsverschillen: 2 groepen waarvan men weet wat verschillen zijn vergelijken op test • Gebruik van een experiment: bv. Het verhogen van de fitheid na een programma
2. Generaliseren van validiteit • Validiteit is populatie specifiek : hoogste validiteit voor sample waarin het is vastgesteld • Andere leeftijd, geslacht, SES ? • Verschillende studies nodig die predictor – criterium combineren
3. Validiteit in kwalitatief onderzoek • In kwalitatief onderzoek geen cijfers : « ziet of hoort de onderzoeker wat hij denkt dat hij ziet of hoort ? » • Steeds afvragen of de conclusies juist zijn • Type III fouten = de verkeerde vragen stellen
4. Betrouwbaarheid van meetinstrumenten • Betrouwbaarheid is een deelaspect van validiteit = is het instrument consistent of herhaalbaar • Verschillende testen na elkaar moeten dezelfde resultaten geven • Nooit valide als hij niet betrouwbaar is • Wel betrouwbaar meer niet valide (bv. Kapotte weegschaal
Geobserveerde score = echte score + fout score • Doel is om fout score zo klein mogelijk te houden • Betrouwbaarheidscoëfficiënt is de mate waarin het instrument vrij is van fout variantie
4.1. Oorzaken van meetfouten • Subject : motivatie, stemming, vermoeidheid, geheugen, … • Testen : heldere instructies, bijkomende richtlijnen, … • Scoring : competentie, ervaring, toewijding, … van scorers • Instrumentarium : fouten bij het toestel of bij de codering
4.2. Betrouwbaarheid uitdrukken met correlatie • Hoe dichter bij 1, hoe meer betrouwbaar, hoe kleiner de fout variantie • Pearson r = interclass correlatie • Twee verschillende variabelen • Validiteit • Gebruik van ANOVA = intraclass correlatie • Twee keer zelfde variabele • Betrouwbaarheid
Interclass correlatie Pearson r voor validiteit kan niet gebruikt worden voor betrouwbaarheid omdat : • Pearson r voor twee variabelen niet voor 1 variabele verschillende keren • Slechts twee variabelen, meestal meer trials • Geen meting van veranderingen in gemiddelde of stand. dev.
Intraclass Correlatie Berekenen via SPSS Scale > reliability > intraclass correlatie • Single Measure Intraclass correlation • Rekening houden met variantie tussen trials • Average Measure Intraclass correlation • Geen rekening houden met variantie tussen trial (=hogere waarde)
Kan gebruikt worden voor : • Verschillende trials afnemen en kijken of er verschillen zijn (leereffect – vermoeidheid) • Interbeoordelaarsbetrouwbaarheid
5. Methoden om betrouwbaarheid vast te stellen 5.1. Stabiliteit • Test-hertest methode • Interval houdt rekening met : rust, leren, maturatie, kennis
5.2. Parellelle test methode • Twee testen met zelfde inhoud • Afnemen bij zelfde populatie • Correleren geeft betrouwbaarheidscoëfficiënt
5.3. Interne consistentie • TEST-HERTEST op 1 dag • Prestatietests geen schriftelijke tests • Hoge correlatie (Intraclass) • SPLIT-HALF • Test in twee verdelen : even en oneven vragen • Correleren : consistentie van de scores in de test
CRONBACH ALPHA • Meest gebruikte methode • Via SPSS > Scale > reliability • Zowel dichotoom split half verschillende trials of tests
6. Interbeoordelaarsbetrouwbaarheid • = objectiviteit • Scoren verschillende testers gelijk ? • Gedrag : codeerschema • Met Intraclass correlatie • Interobserver Agreement (IOA) = percentage overeenkomst door aantal overeenkomst ten opzichte van totaal
7. Betrouwbaarheid in kwalitatief onderzoek • Geen test-hertest bij interview of in natuurlijke setting
7.1. Externe betrouwbaarheid Is de inhoud van de data betrouwbaar ? Bedreiging : • Status van de researcher • Keuze van subjecten • Context en sociale situatie • Constructen en hypothesen • Methode van data verzamelen en analyseren
7.2. Interne betrouwbaarheid Zou een andere observator dezelfde data hebben verzameld ? Strategieën : • Zeer uitgebreid beschrijven • Verschillende onderzoekers • Review van collega’s • Opnames zodat ze gehercodeerd kunnen worden
8. Soorten schalen8.1. Nominale schalen • Categorieën • Mutueel exclusief • Geen ordening
8.2. Ordinale schalen • Rangen • Van laag naar hoog • Geen gelijke intervallen • Categorieën gemaakt door onderzoeker • Laag – hoog • Laag – matig – hoog => Tussen nominaal en ordinaal
8.3. Interval • Ordening + gelijke afstand tussenin 8.4. Ratio • Ordening + gelijke afstand + nulpunt • Nulpunt = afwezigheid
9. Standaardscores • Om prestaties te vergelijken : beter op evenwicht dan op kracht ? • Elke score omzetten in standaardscore • Standaardscores uitgedrukt in standaard afwijkingen van het gemiddelde
9.1. z- scores • Gemiddelde aftrekken en delen door de standaarddeviatie (x – x) / s • Gemiddelde 0 en stand. dev. 1
9.2. T scores • T = 50 + 10 z • Gemiddelde 50 en stand. dev. 10 • Meestal tussen 20 en 80
10. Meten van beweging • Kracht, lenigheid, snelheid, … • Meestal minder problemen van validiteit en betrouwbaarheid dan tests • Bij meer complexe studies wel ook validiteit en betrouwbaarheid nagaan
11. Meten van emoties • Attitudevragenlijst + gedrag ! • Zo veel mogelijk bestaande en gevalideerde lijsten • Invullen van vragenlijst op zich kan verandering met zich meebrengen • Sociale wenselijkheid : niet naar waarheid antwoorden
Hoe specifieker vragenlijsten, hoe meer je er kan mee doen • Voorbeeld : • dus niet : algemene angst • maar wel : competitie angst
12. Schalen om emoties te meten LIKERT-schalen • 5 of 7 punten schaal met gelijke intervallen tussen de punten • Mate waarmee men akkoord gaat met iets • Is meestel meer betrouwbaar dan ja / nee antwoorden
SEMANTISCHE DIFFERENTIAAL • Bipolaire items op zeven punten schaal • Bv. De coach is • Eerlijk 1 2 3 4 5 6 7 Oneerlijk CLASSIFICATIE SCHALEN • Rating scales • Door observatoren of self-rating • Schaal zelf maken om prestatie te meten • Antwoorden : ja/nee, schaal, codering, …
Fouten in classificatie : • Mildheid • Centrale tendens • Halo effect • Fouten van nabijheid • Vooroordelen van observator • Verwachtingsfouten van observator • Cfr. Self-fulfilling prophecy in de klas => zo weinig mogelijk info aan observator + goed trainen
13. Meten van kennis Nagaan of items goed zijn naar moeilijkheid en discriminerend vermogen = item analyse • Moeilijkheid • Moeilijkheidsindex : percentage correct • Onder 10% en boven 90% geven geen info • Afhankelijk van doel bepalen
Discriminatie • Discrimineren van item tussen zij die het goed of slecht deden op de TOTALE test • Discriminatie-index : • Verdeel de groep in hoge en lage scorers (27%) • Formule : aantal juiste in hoge groep – aantal juist in lage totaal aantal in beide groepen • Best boven .20 zijn • Negatief moet zeker geëlimineerd worden
Soorten kennis test items • Multiple choice items • zijn best meest betrouwbaar • Tussen 3 en 5 alternatieven • Te weinig alternatieven : minder betrouwbaar • Te veel alternatieven : te veel afnametijd • Moeten duidelijk zijn, aantrekkelijke alternatieven • Juist/fout items • Minder betrouwbaar • Meer items maken betrouwbaarheid toch redelijk