Over het tentamen:

Over het tentamen: • Voor 3 ects: • slides (ook wat is overgeslagen) • reader m.u.v. Axelrod “Dissemination of culture” • Voor 2 ects: • Als 3 ects, maar zonder Axelrod’s “Setting standards” en zonder Lave & March’s “Leermodellen” (en dus ook niet de slides die hierover gaan)

STI-2 LEERDOELEN • Kennismaking met model- en theorievorming in de sociologie (of eigenlijk de sociale wetenschappen in het algemeen) • Toepassen van model- en theorievorming op onderwerpen van eigen wetenschappelijke of maatschappelijke interesse • Specifiek: inleiding in en kennismaking met • Speltheorie • Simulaties als methode van theorievorming • Leertheorie

Leermodellen Leermodellen als één optie voor de modellering van het gedrag van mensen (of i.h.a.: actoren) “a set of relatively permanent changes in behavior that result from prior experience” Speltheorie: ‘forward looking’ models Simulatie (op een schaakbord): ‘sideways looking’ models Leertheorie: ‘backward looking’ models Reader: Lave & March, hoofdstuk 6

Leermodellen: psychologie vs sociologie Psychologie: verschillende soorten van leren, hoe gaat dat leren precies in zijn werk, etc Pavlov (1849-1936), classical conditioning, timing van de stimulus, stimulusresponse vs stimulusstimulus, rol van genetica in stimulus-respons learning, niet alle stimuli werken bij alle responsies, etc Thorndike (1874-1949), instrumental conditioning: - “the law of effect” (tevredenheid met de uitkomst verhoogt de kans op herhaling van het hiervoor verantwoordelijk geachte gedrag) Skinner (1904-1990) - operante conditionering (Skinner-box) - “behaviorism” - vraag: wat zijn goede “reinforcement schemes” Sociologie neemt minder ingewikkelde modellen over leergedrag aan: We nemen een relatief eenvoudig leermodel aan (van de Thorndike en Skinner soort), en proberen met een dergelijk model op micro-niveau, op het macro-niveau de sociale verschijnselen met behulp van sociale condities te verklaren

Close up ...

Lave & March, hoofdstuk 6: de T-doolhof LINKSRECHTS Beloning Geen beloning We kijken nu wat er gebeurt bij herhaalde keuze.

“Reinforcement learning” in een T-doolhof • Er is een zekere beginkans dat de rat naar LINKS of RECHTS gaat • Rat kiest LINKS of RECHTS • Als de rat bij aankomst een beloning vindt, dan wordt de kans op de betreffende keuze (LINKS of RECHTS) groter. In het boek van Lave & March: • PL(0) en PR(0) • Rat kiest LINKS of RECHTS, stel LINKS • Stel een beloning wordt gevonden: PL(t+1) = PL(t) + ‘increment’

“Reinforcement learning” in een T-doolhof LINKS gegaan, beloning gevonden: PL(t+1) = PL(t) + increment Vaste increment is een slechte keuze: de P is een kans en mag niet boven de 1 uitkomen. Daarom anders: PL(t+1) = PL(t) + a * (1 - PL(t)) met 0<a<1 de aantrekkingskracht van een optie is steeds een vast percentage (namelijk a) van de afstand van PL tot 1. a is de leersnelheid in het geval van beloningen (learning rate)

“Reinforcement learning” in een T-doolhof LINKS gegaan, geen beloning gevonden (=mislukking): PL(t+1) = PL(t) – b PL(t) met 0<b<1 de extra aantrekkingskracht van een optie is steeds een vast percentage (namelijk b) van de afstand tot 0. b is de leersnelheid in het geval van mislukkingen (learning rate)

T-doolhof: voorbeeld Kans op LINKS = 0,5 Kans op RECHTS = 0,5 a (leersnelheid bij beloning) = 0,3 b (leersnelheid bij geen beloning) = 0,2 LINKS  beloning, RECHTS  geen beloning TrialGaat naarPL(t) PR(t) 1 LINKS 0,50 + 0,30*(1-0,50)=0,650 0,350 2 LINKS 0,65 + 0,30*(1-0,65)=0,755 0,245 3 LINKS 0,755+0,30*(1-0,755)=0,829 0,172 4 LINKS 0,880 0,120 5 LINKS 0,916 0,084 6 LINKS 0,941 0,059 7 … … …

T-doolhof: algemeen • Twee gedragsalternatieven • Twee mogelijke uitkomsten • Gedragskeuze op basis van geneigdheid tot de verschillende alternatieven (zgn “propensities”) • Er is een beginvoorkeur (P(0) voor beide alternatieven)

T-doolhof < zie “learning.xls”>

Resultaten T-doolhof • Eén kant met beloning, andere niet  gedrag convergeert naar “altijd de goeie kant” • NB: je kunt dit natuurlijk probabilistisch maken Als a=b en Kans op beloning LINKS = L Kans op beloning RECHTS = R Limiet t PL(t) = (1-R)/(2-R-L)

Toepassing: innovativiteit (1) • Lave & March, p. 287 (“The extinction of subjective creativity”) • Hoe komt het dat innovativiteit relatief zeldzaam is? • Twee alternatieven: • [1] ik doe (subjectief gezien) innovatief • [2] ik doe (subjectief gezien) conservatief • Omgeving geeft beloningen • Vraag: in welke omgevingen ontstaat relatief veel innovatief gedrag? • Flauw antwoord: daar waar beloningen worden gegeven aan innovatief gedrag (of andersom: juist niet daar waar beloningen staan op conservatief gedrag)

Toepassing: innovativiteit (2) • We voegen nu beloningen toe, die afhankelijk zijn van of een idee goed is, niet of een idee innovatief is. • Aanname: de kans dat een subjectief gezien innovatief idee goed is, is 20%. • Aanname: over het algemeen zijn conservatieve ideeën met grotere kans goed (in de loop van de tijd zijn de goede ideeën overgebleven), zeg 85%. • Extra aanname: a=b, dwz de leersnelheden zijn gelijk •  Dan convergeert de proportie innovatieve ideeën naar (1-R)/(2-R-L) = (1-0,85)/(2-0,85-0,2) = 21%

Toepassing: innovativiteit (3) • Die 21% is laag, maar er worden dus nog wel innovatieve ideeën verzonnen. De vraag is: WAAR DAN? • Per toeval zijn er “innovatieven” met steeds goede ideeën • De langzame leerders; zij zijn er nog niet achter dat innovatief gedrag niet loont • I.h.a. in omgevingen waar het verschil tussen goede en slechte ideeën onduidelijk is Implicaties: • Innovativiteit stimuleren is riskant, je krijgt er meer missers door • Echte innovativiteit kan vaak pas na een leerperiode voorkomen (voor grote innovaties heb je nu eenmaal basiskennis nodig)  meer innovativiteit in beroepen waarbij de leerperiode korter is, en  jongeren zijn innovatiever

In goede en slechte omstandigheden … Vergelijk nu een BENIGN WORLD (altijd een beloning, of je nu links of rechts gaat) met een MALEVOLENT WORLD (nooit een beloning) < zie learning.xls>

In goede en slechte omstandigheden: resultaten • “MALEVOLENT WORLD” (geen beloningen)  geen convergentie, zowel niet op individueel niveau als op collectief niveau • “BENIGN WORLD” (altijd beloningen)  op individueel niveau: convergentie naar LINKS én RECHTS  op collectief niveau: proportie LINKS wordt gelijk aan proportie mensen dat LINKS koos in trial 1

Toepassing: Haarkleur (1) • Vraag: hoeveel mensen kiezen voor welke haarkleur? Achtergrond: wie loopt met de mode mee? • 2 Gedragsalternatieven: blond en bruin • Aanname: ‘s ochtends de keus tussen die twee, dan de hele dag zelfde kleur • Beloning: social approval (of juist niet) ( 2 x 2 = 4 gevallen) • Geval 1: blond haar dan social approval, bruin dan niet  Geleidelijk aan kiest iedereen blond • Geval 2: mooie mensen krijgen social approval, lelijke niet  voor mooie mensen is dit een geval van BENEVOLENT WORLD  je krijgt blond en bruin haar door elkaar, met een vaste haarkleur over de tijd  voor lelijke mensen is dit een geval van MALEVOLENT WORLD  je krijgt sterk wisselende haarkleuren

Toepassing: Haarkleur (2) • Gevolg: Degenen die minder social approval krijgen, zijn degenen die meer van haarkleur wisselen • In het algemeen: Degenen die minder of geen ‘beloning’ krijgen, zijn degenen die meer van gedrag wisselen Voorbeelden BeloningGedrag Marktleiders vs volgers Winst Productstrategie Bouwondernemingen Gunning Wijze van bieden Hieraan gerelateerde implicatie: als de omstandigheden verslechteren (van BENIGN naar MALEVOLENT), zullen bedrijven meer van strategie wisselen. [cf. ‘successful executives’ / ‘personality development’  in een constante omgeving die de beloningen volledig bepaalt, toch heel verschillend gedrag]

Het Coleman schema in deze toepassing Sociale condities: Soort wereld (BENIGN of MALEVOLENT) Sociaal verschijnsel: Neiging tot bepaald gedrag Hoe transformeren de individuele uitkomsten tot collectief gedrag? Som van individuen Welke aannames zijn nodig voor je op het micro-niveau begint? Het Coleman-bootje Tot welk individueel gedrag leidt dit? BENIGN  extreme voorkeuren MALEVOLENT  juist geen extreme voorkeuren Handelingstheorie: leertheorie, mensen hebben neigingen tot gedrag en passen deze neigingen aan volgens de matrix van een paar slides terug Wie/wat zijn de actoren? Wat zijn hun doelen en voorkeuren? Homogene populatie individuen, ieder twee keuzes. Beloningen volgens BENIGN of MALEVOLENT.

Mogelijke uitbreidingen • Meer alternatieven (LINKS, RECHTS, … MIDDEN?) • Leersnelheden die veranderen over de tijd • Grootte van de beloning variabel + leersnelheid afhankelijk van grootte van beloning • Twee actoren • … • NB Ook hier weer: een goede modeluitbreiding • Maakt het model realistischer EN … • … er is ten minste een redelijke verwachting dat de conclusies van het model substantieel zullen veranderen na toepassing van deze uitbreiding

Over STI-2 als geheel (1) • Onderzoeksvragen als ketens van Probleem1-Theorie-Onderzoek-Probleem2-… • Ook bij sociale wetenschappen: maak gebruik van modellen om voorspellingen af te leiden En dus niet: • beta-probleem  rekenen • gamma-probleem  wauwelen • Die gamma-problemen zijn extra lastig: • iedereen heeft er een mening over • “wetten” zijn er veel minder • minder aanknopingspunten waar je met theorievorming moet beginnen • Hulpmiddel: modelmatige analyses

Over STI-2 als geheel (2) Verschillende soorten modellen • [Semantische: begin met specifieke waarnemingen, en maak deze algemener] • Speltheoretische • Interdependent gedrag • Vooruitkijkend, sterk op rationeel gedrag gebaseerd • Simulatiemodellen • Vaak van nut indien wiskunde te lastig (bijvoorbeeld te veel actoren, te veel alternatieven, te veel verschillende conflicterende doelen) • Van nut als actoren hun gedrag mede af laten hangen van anderen, maar op iets minder strikt rationele wijze • Leermodellen • Achteruitkijkend, sterk op ervaring van actoren gebaseerd 5. [combinaties van de voorafgaande]

Eventueel extra materiaal na deze slide

Interdependentie in leermodellen: MATING en HUNTING • Lave and March, p. 305 • Twee actoren, ieder dezelfde twee alternatieven (“Henry and Mildred”) • Verder identiek: ze hebben allebei een bepaalde voorkeur voor één van beide alternatieven aan het begin, en leren allebei aan de hand van het al dan niet krijgen van beloningen (eventueel met verschillende leersnelheden) • Geval 1 “MATING”: de actoren worden beloond indien ze dezelfde keuzes maken • Geval 2 “HUNTING”: de actoren worden beloond indien ze tegengestelde keuzes maken • Resultaten MATING: relatief snel wordt geconvergeerd naar een gemeenschappelijke keuze (interessante implicaties zitten in de verschillen in leersnelheden: degene met de grootste leersnelheid wisselt meer van alternatief) HUNTING: geen convergentie (oscillerend)

Interdependentie en leermodellen gemengd: “belief learning” • Twee actoren, ieder twee alternatieven • Herhaalde keuze over de tijd • Iedere actor heeft inschattingen over de geneigdheid van de ander om het één of het ander te doen • Actor kiest uit alternatieven op basis van verwachte opbrengst, gegeven de inschattingen • Actor past zijn inschattingen over de ander aan, aan de hand van vergelijkingen zoals in leermodel • Voorbeeld: herhaald Assurance Game • [nb extra complicatie: nu weet je ook wat je gehad zou hebben als je de andere keuze had gemaakt]

Over het tentamen: