230 likes | 410 Views
Over de generaliseerbaarheid van sociaal gedrag in economische experimenten. Godfried van den Wittenboer (gepensioneerd). Wie ben ik?. Experimentele en Mathematische Psycholoog (Nijmegen, 1968) Experimenten: Onderhandelingsgedrag ( Fouraker & Siegel , 1960) Stimulus sampling leermodel
E N D
Over de generaliseerbaarheid van sociaal gedrag in economische experimenten Godfried van den Wittenboer (gepensioneerd)
Wie ben ik? Experimentele en Mathematische Psycholoog (Nijmegen, 1968) Experimenten: Onderhandelingsgedrag (Fouraker & Siegel, 1960) Stimulus sampling leermodel Bijvak: Lineair programmeren en speltheorie (Rotterdam, 1966) UVA Andragologie en daarna Pedagogiek Methodologie en statistiek Relevante Publicaties: Statistiekboeken Formele Interventiemodellen Duale Controle Experimentele designs Structurele Groeicurvemodellen
Experimentele economie • Er vinden steeds meer experimenten plaats in de economie • Daarbij zijn mij als experimenteel psycholoog een aantal zaken opgevallen in de rapportage • met betrekking tot de generaliseerbaarheid • De opmerkingen zijn bedoeld om het experimenteren te verbeteren, niet om te kleineren. • A. Zaken van Inhoudelijke aard (veronderstellingen liggend tussen theorie en onderzoek) • B. Zaken van methodologische aard (operationele definities en experimentele designs) • C. Zaken van statistische aard (de analyse van experimentele designs via toetsen voor twee steekproeven, alternatieven)
A. Inhoudelijk commentaar • Rapportage Volgorde verslaglegging veelal : Inleiding/theorie – design – hypothesen – resultaten-conclusie - verband tussen theorie en hypothesen daardoor niet altijd direct duidelijk - en het design lijkt de hypothesen te bepalen, - want vaak gaan hypothesen over cellen het design: gemiddelde in ‘conditie aa’ is groter dan in ‘conditie ab’. Mijn voorkeur is: Inleiding /theorie/hypothesen → design→ resultaten etc. - Het zijn hypothesen over het effect van variabelen. Bijv. Als mensen elkaar hebben leren kennen is de trust groter dan bij onbekenden en bij vrouwen is deze hoger dan bij mannen . - Het zijn dan twee variabelen met elk twee waarden, hetgeen leidt tot een 2x2 design (De hypothesen bepalen het design) - Gebruik de term ‘Design’ in een artikel voor het steekproefontwerp en ‘methode’ of ‘procedure’ voor de andere methodische aspecten.
2. Vooronderstellingen tussen theorie, c.q. hypothesen, en het daadwerkelijke experiment • Rationele mensen houden slechts rekening met anderen, als dat hun streven naar winstmaximalisatie bevordert (eigenbelang). Zie echter trustgame voor altruïsme. • Volledige informatie over elkaars zetten en opbrengsten is nodig om goed te kunnen samenwerken. Zie echter duale controle game. Mensen willen dan vooral winnen. • Er vindt geen interferentie van taken plaats als mensen aan twee verschillende spelen meedoen in een experiment. Echter mensen leren ook beter te spelen in economische spelen. Meer vooronderstellingen: V L. Smith (2010). Theoryand experiment: What are the questions. Journal of EconomicBehavior & Organization
B. Methodologisch commentaar Aardig onderzoeksartikel om mijn punten aan te illustreren: M. Fiedler & E. Haruvy (2009). The lab versus the virtual lab and virtual field - An experimentalinvestigation of trust games withcommunication. Journal of EconomicBehavior & Organization Het is een Trust game in een Second Life omgeving met in het Lab. aanwezige personen en ‘Second Life’ deelnemers. Er zijn 3 condities: Studenten Dld. : Conditie 1. Virtuele Trustgame in het lab. (zonder communicatie vooraf, N=40), Conditie 2. Virtuele vooraf- communicatie in lab. conditie: 45 virtuele discussiegroepjes van drie personen en 1 van vier voorafgaand aan de taak, N = 136). Second Life subjecten: Conditie 3. Virtuele vooraf- communicatie met Second Life Residents N =216) Doel van het onderzoek is na te gaan of persoonlijke interactie (zij het virtueel) effect heeft op trust en reciprociteit en of er verschillen zijn tussen studenten en Second Life spelers (virtual field). Verder wordt de impact van motieven nagegaan op de keuzes van de spelers binnen paren.
Trust game (wordt veelvuldig gebruikt) ( hier: one shot) • De trustor stuurt een deel van het gekregen aanvangsbedrag (10 Lab-Euros = 1000 Linden Dollars= 2.5 Euros) naar de trustee (trust) . • Dit wordt vermenigvuldigd met 3 voordat het daar aan komt en opgeteld van het aanvangsbedrag (zie boven) van de trustee. De trustee stuurt al dan niet een bedrag terug naar de trustor (reciprociteit). • Voorafgaand aan het spel nemen de pre-communicatie spelers (conditie 2 en 3) deel aan een (virtuele) discussiegroep, waaruit later (double blind) random paren worden gevormd • De conditie 1 spelers doen dit niet. Zij worden zonder meer aan een onbekende andere speler gekoppeld
1. Operationalisatie 1.1 Trust en reciprociteit trustor trustee x – a → c*a → x + c*a x – a +b p =b/(x + c*a) ← x beginbedrag a/x = trust = proportionsend c vermenigvuldigingsfactor (hier c =3) p proportionreturned = reciprociteit Commentaar: I. a/x en p zijn gerelateerde afhankelijke variabelen (p is mede-afhankelijk x en a). Wat voor a geldt, geldt ook enigszins voor p. Bij voorkeur dus Multivariate analyses. II. Leidt c=3 tot trust, en c=2 of c=10 niet? (validiteitsvraag). Relatie tussen c en trust. III. x = lab-dollars (10) in conditie 1 en 2, maar x = Linden Dollars (1000) in conditie 3. Dat lijkt veel meer. Heeft dit geen invloed op a en b? (validiteitsvraag) IIII. Is het wel ‘trust’ dat wordt gemeten en niet ‘goklust’, of ‘investering’ onder conditie 1. Stel dat de trustor in die conditie in speler 2 een gokautomaat (computer) ziet, die met bepaalde kansen terugbetaalt (validiteits-vraag). V. Heet de andere speler trouwens ‘medespeler,’ of ‘tegenstander’? Ook dat kan een aardig verschil uitmaken.
1.2 Motieven • Coöperatieve gevoelens (proxy voor altruïsme) • Vertrouwen in de andere speler • Je verplicht voelen tegenover de andere speler • Er samen zoveel mogelijk uit proberen te slepen • Alle gemeten op een 7-punts Likertschaal Commentaar: - Likertschaal is niet onbetwist in dit geval • Want er zijn altijd meer items nodig voor de meting een concept. • Bovendien is een betrouwbaarheidsanalyse nodig voor elke schaal (met evt. verwijdering van items voor een homogener geheel). • Noodzakelijke vermelding van de betrouwbaarheidscoëfficiënt Cronbach’s alfa (anders weet je helemaal niets over de betrouwbaarheid van de schaal in het algemeen, of dit speciale geval) • Likert is niet de mooiste oplossing, mooier is bijv. een Rasch-schaal (maar die kost meer moeite, tijd en geld).
2. Experimentele designs • Er zijn drie condities gebruikt, maar er zijn eigenlijk twee variabelen in het geding 1. type proefpersoon (Univ. vs. Second Life) en 2. communicatie (wel of geen communicatie vooraf) • Dit soort situaties komt veel vaker voor (bijvoorbeeld al in Siegel en Fouraker 1960, 1963, of beide) • Maar leidt tot een onvolledig design (niet te verwarren met een fractioneel design, Landsheer & van den Wittenboer (2000, 2002)
Commentaar: • 1. Onvolledig design • - Geen goede bepaling mogelijk van een eventueel communicatie-effect. • Want handelt een Second Life groep zonder communicatie namelijk soortgelijk als Uni-groep zonder communicatie? • - Geen goede bepaling mogelijk van een eventueel deelnemertype-effect • Want handelt een Second Life groep zonder communicatie namelijk soortgelijk als een Second Life groep met communicatie? • Slechts als er geen interactie-effect van ‘type’ met ‘communicatie’ op trust en reciprociteit aanwezig is (maar dat is met de drie condities niet te bepalen), is uitsluitsel over de zogenaamde hoofd-effecten mogelijk. En eerst na bestudering van deze interactie, kunnen dan de verkregen hoofdeffecten worden bestudeerd. • 2. Het volledige 2 x 2 design (en ook i x j, of i x j x k, etc.) maakt al deze effecten, plus hogere orde interactie-effecten probleemloos schatbaar, mits het design gebalanceerd is.
Grofweg gezegd is een design gebalanceerd, als het: • evenveel (verschillende) subjecten in elke tussengoepsconditie bevat (via random toewijzing) • en evenveel waarnemingen in elke binnengroepsconditie. Voordelen van balanceren: - Het design is orthogonaal: onafhankelijke variabelen ongecorreleerd - Maximalisatie robuustheid tegen schendingen van • normaliteit • homogeniteit der varianties - Maximalisatie power (kans op terecht verwerpen Ho) - Eenvoudige data-analyse
Ongebalanceerd: Zijn de aantallen niet gelijk, dan toetsen we in feite andere nul-hypothesen (en dus ook hypothesen), dan we denken te toetsen. De nulhypothesen zijn dan namelijk afhankelijk van het aantal waarnemingen per cel In een of ander concreet 2 x 2 design bijvoorbeeld: + (4/12) = (+ (10/13) i.p.v. wat u denkt + = + (zie: Searle, S.R. (1987). Linearmodelsforunbalanced data. Wiley, New York ) Gebruik daarom ‘Type III kwadratensommen’ (ongewogen marginale gemiddelden) om niet in de problemen te geraken. Die geven de verschillen tussen de gemiddelden bij gelijke niveaus van de andere onafhankelijke variabele en toetsen + = + . (Is ‘method 1’ in SPSS.) Bij Type I (gewogen marginale gemiddelden) zijn de gemiddelden functies van de aantallen per cel, dus ongeacht het niveau van de andere onafhankelijke variabele. Meestal slechts nuttig, als de aantallen per cel aan elkaar gelijk zijn, of proporties in de populatie weerspiegelen). Zo leer je ANOVA meestal. • (Type II minder gebruikelijke vorm van weging. Als geen interactie-effect gevonden is, toetst hij hetzelfde als Type III, maar heeft dan de voorkeur, omdat hij in dat geval meer power heeft). • Interactie-effect schattingen zijn identiek bij deze drie typen, als de interactieterm bij type I - zoals gebruikelijk - als laatste in het lineaire model wordt gestopt (Maxwell & Delany (1990). Designingexperimentsandanalyzing data. Brooks/Cole, Pacific Grove, p. 769)
Meestal slechts eenvoudige designs, maar het kan complexer Van den Wittenboer, G. e.a. (1987, 1992). Design ‘duale controle’ experiment, met telkens drie paren spelers voor ‘speler 1 en speler2’ en q en r als variërende parameters van de verliesfunctie tijdens de 30 zetten van het spel. Speler 1 en speler 2 streven tegengestelde doelen na binnen hetzelfde economische systeem (Cola vs. Pepsi).
C. Statistisch commentaar • Experimentele designs met meer dan twee condities worden nagenoeg altijd geanalyseerd met variantieanalyses (Anova, Manova, Kruskal-Wallis one-way analysis, Jonckheere-toets voor geordende gemiddelden, Friedman two-way analysis, etc.). Daarna evt. ‘post hoc’ toetsen. • Slechts wanneer de afhankelijke variabele uit twee of meer nominale categorieën bestaat: toets voor k x r tabel (bijv. in De Hoog & Van den Wittenboer (1986)) 1. Waarom geen t-toetsen, Mann-Whitney’s, Wilcoxon’s, etc.? a. Te veel toetsen nodig, als we willen toetsen of er verschillen zijn. • Bij 5 condities bijvoorbeeld reeds = 10 toetsen • Die zijn statistisch gezien niet onafhankelijk van elkaar, maar hoe ze afhankelijk zijn is ook niet bekend. • Er wordt in ieder geval gekapitaliseerd op kans. We krijgen 10 kansen i.p.v. 1. • Als alle toetsen onafhankelijk zouden zijn, is de kans op 1 of meer significante verschillen (bij α = .05) gelijk aan 1 – , i.p.v. .05. Bij 4 condities en onafhankelijke toetsen zou deze kans 0.26 zijn en bij 3 condities, zoals in het trustvoorbeeld, 0.14. • Zeker is echter dat veel steekproefvarianties meer dan eens worden gebruikt in verschillende toetsen (een sterke bron van afhankelijkheid). De exacte is dan moeilijk te bepalen. • De resultaten zijn statistisch niet meer valide, ook niet als ze conform de verwachtingen zijn.
b. Geen bepaling van interactie-effecten mogelijk In elk k x r design kunnen interactie-effecten meespelen. • Dit zijn effecten ontstaan door gecombineerde effecten van de onafhankelijke variabelen op de afhankelijke. • slechts op te sporen door een simultane analyse van alle combinaties van onafhankelijke variabelen • Significante hoofdeffecten eerst goed te interpreteren na bestudering van de interactie-effecten, als deze significant zijn. Verzonnen voorbeeld 2 x 2 design: geen hoofdeffect; wel interactie
De verslagen worden onleesbaar / ontoegankelijk - door de vele toetsen die in de tekst worden opgesomd. Neem een 2 x 2 design = 4 condities en dus 6 t-toetsen, die verwerkt moeten worden in de tekst. Hoe controleer je als lezer, of alle benodigde toetsen hebben plaatsgevonden, als op deze manier (incorrect) is getoetst? Want alle toetsen zijn nodig voor een totaal oordeel, behalve als er transitiviteit op treedt. Een tabel kan uiteraard helpen, maar overzichtelijk? Bij variantieanalyse één simpele overzichtelijke tabel (voor alle k x r designs).
2. Waarom eigenlijk t-toetsen en non-parametrische toetsen? 1. Meetniveau. Doorgaans ‘interval of hoger’ in de economische experimenten. • Dus geen probleem, behalve bij de eerder genoemde één item Likertschalen voor de motieven. Bij meervoudige itemschalen, geanalyseerd op betrouwbaarheid, valt dit probleem volgens velen weg. • Ook de uitgevoerde regressieanalyses met de motieven als onafhankelijke variabelen zijn dus dubieus in dit onderzoek. • Covariantieanalyses, waarin de effecten worden bestudeerd, na onttrekking van de invloed van covariaten zouden sowieso beter zijn geweest.
2. Normaliteit • Wordt bijna altijd genoemd als reden • Doorgaans geen duidelijke reden te vinden om geen variantieanalyse toe te passen • Er zijn geen inhoudelijke redenen voor extreme scheefheid (bijv. J vormige tweetoppige verdelingen met een heel hoge en een heel lage top: rare mixtures) • De steekproevenverdeling van het gemiddelde, waar het geheel om draait, is al snel bij benadering normaal verdeeld • Zie het volgende voorbeeld:
Steekproevenverdeling van het gemiddelde bij n=3 uit een uniforme verdeling (Berekend uit Kendall & Stuart, The Advanced Theory of Statistics, deel 1, p. 259)
Als u deze statistische bijbel ook niet geloofd, is er nog één ander mogelijkheid: Bootstrappen (genoemd naar de baron van Münchhausen): • Doe het onderzoek • Zorg ervoor dat echt random wordt getrokken, of gerandomiseerd • Voer de variantieanalyse uit, zoals het moet. Geef alle benodigde commando’s. • Laat de gehele analyse bootstrappen met een omvang n die kleiner is dan de uwe. • Er worden dan voortdurend, zeg 500, of 1000 steekproeven van de omvang n met teruglegging getrokken uit uw steekproef. (Als uw steekproef echt random is, zijn ook dat random getrokken steekproeven uit de populatie) • Voor elk van deze trekkingen wordt de complete analyse uitgevoerd en wordt m.b.v. alle trekkingen de steekproevenverdeling van alle relevante steekroefgrootheden vastgesteld - Met behulp van deze ‘echte’ verdelingen wordt vervolgens de overschrijdingskans bepaald, die vergeleken kan worden met het vooraf gestelde significantieniveau α. Op deze manier kan ook het probleem van de ‘variantie-inhomogeniteit’ worden omzeild, als dat nodig is.
Eindconclusie: Generalisatie kan met optimaal gebruik van experimentele designs aanzienlijk worden verbeterd.
Enige relevante literatuur • Maxwell, S.E. & Delaney (1990), H.D. DesigningExperimentsandanalyzing data. Brooks/Cole, Pacific Grove (Plus veel andere titels) • Tabachnick, B.G. & Fidel, L.S. (2013). Using multivariate statistics (sixtedition). Pearson • De Hoog, R. & Van den Wittenboer, G. (1986). Decisionjustification, information structureand the choice of decisionrules. In: B. Brehmer, H. Jungermann, P. Lourens & G. Sevón (eds.), New directions in research on decision making, Amsterdam, Elsevier North-Holland, 191-204. • Landsheer, J.A. & Van den Wittenboer, G. (2000). Fractional designs: A simulationstudy of usefulness in the socialsciences. Behavior Research Methods, Instruments, & Computers, 32, 528-536. • Van den Wittenboer, G., De Bruyn, J. & Catau, J. (1987). Dynamicdecision making in dual control problemswithconflicting goals. In: E. Roskam and R. Suck (eds.), Progress in mathematicalpsychology – I, Amsterdam, Elsevier North-Holland, 449-520 • Van den Wittenboer, G.L.H. (1992). Formele interventiemodellen. Amsterdam: Dissertatie Universiteit van Amsterdam. • Over schalen, waaronder de Likertschaal, zijn boekenkasten en tijdschriften vol geschreven. (zie op internet onder ‘scalingmethods’, ‘measurmentscales’ ‘rating scales’, ‘attitude measurement’, ‘measurementmodels’, ‘multidimensionalscaling’ en dergelijke termen. Van der Ven geeft een overzicht tot die tijd voor zover ik me herrinner. Een nieuwer overzichtswerk ken ik zo gauw niet niet. Van der Ven, A. (!977) Inleiding in de schaaltheorie (dutchedition). Van LoghumSlaterus, 1977 Het meest interessante overzichtswerk is nog steeds de klassieker van Clyde Coombs: Coombs, C. (1964). A theory of data. New York: Wiley. Voor een inleiding in de betrouwbaarheidsanalyse.zie bijvoorbeeld: Van Peet, Vanden Wittenboer en Hox (2004). Toegepaste statistiek. Beschrijvende technieken (Tweede druk) Senfert Kroese, Hfst. 10 (of de opvolger met K. Namesnik, i.p.v. Van den Wittenboer als mede-auteur). Wat dom trouwens, dat ik daar niet eerder aan heb gedacht. Ward Edwards (die ooit persoonlijk heb ontmoet) heeft rond 1960 of daarvoor een boek over experimentele designs geschreven en daarna veel aan besliskundig onderzoek over onder andere ‘utiliteiten’ gedaan. Edwards, A.L. (1972). Experimental design in pschological research. New York: Holt, Rinehart & Winston.