570 likes | 732 Views
Inleiding adaptieve systemen. Competitie en co öperatie. Inhoud. Twee-persoons competitieve symmetrische niet-nulsom spelen op basis van volledige informatie met simultane zetten en kwantitatieve beloningen Prisoner’s Dilemma ( PD ) Stag Hunt ( SH ) Chicken ( CK )
E N D
Inleiding adaptieve systemen Competitie en coöperatie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Inhoud • Twee-persoons competitieve symmetrische niet-nulsom spelen op basis van volledige informatie met simultane zetten en kwantitatieve beloningen • Prisoner’s Dilemma ( PD ) • Stag Hunt ( SH ) • Chicken ( CK ) • Begrippen: Pareto-optimale oplossing, Nash-evenwicht • Uitbreidingen van het Prisoner’s Dilemma • Geïtereerd ( IPD ) • Geïtereerd evolutionair ( IEPD ) • Geïtereerd ruimtelijk evolutionair ( SIEPD ) • Geïtereerd continu ruimtelijk evolutionair ( CSIEPD ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Coöperatieve spelen Doel: coördinatie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Doel: eigen winst-maximalisatie Competitieve spelen Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Competitieve spelen • Wie doet de vaat? • Gedeelde koffiepot • Meeliften in groepswerk • Wielrenners in een kopgroep • NIMBY problematiek (windmolenpark) • Vangstquotum in de visserij • Handelsoorlog • Wapenwedloop Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Prisoner’s dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Prisoner’s dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Prisoner’s dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Koffiezet dilemma Drink je het laatste kopje uit de kan? Zet even nieuwe! 3(3) 1(5) 5(1) 0(0) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Hetzelfde dilemma? • T = Tempation • R = Reward • S = Sucker • P = Penalty • T = Tempation • R = Reward • P = Penalty • S = Sucker Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Hoeveel soorten dilemma’s? • In principezijn er4! = 24dilemma’s • Alleen lastig als… …but he has motivationto defect I prefer the othertocooperate en en of Reward > Sucker Temptation > Reward Penalty > Sucker Temptation > Penalty Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Jij bent speler Speler 1. Je speelt één keer, zonder vooraf te (kunnen of willen) communiceren met Speler 2. Wat zou je doen als je wist dat Speler 2 samenwerkt (C)? Wat zou je doen als je wist dat Speler 2 verzaakt (D)? Dus wat zou je i.h.a. doen? Wat zou Speler 2 i.h.a. doen? Zou het uitmaken als Speler 1 en Speler 2 van te voren mochten communiceren? Welke strategie kies je? Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Pareto-optimale oplossing • Een oplossing heetPareto-optimaalals er geen betere oplossing is die de ander niet schaadt Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Nash-evenwicht • Een gecombineerdestrategie is eenNash-evenwichtals geen van de spelers reden heeft om eenzijdigeen andere keus te maken Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Prisoner’s dilemma • Het Prisinor’s dilemmaheeft één Nash-evenwicht… • …maar dat is nietPareto-optimaal Toch is het niet echt een dilemma: Beide spelers kiezen D Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Normaalvorm(= generieke 2x2 matrix) CC: we werken samen (Reward payoff, R) DC: ik verzaak, de ander is een sukkel (Temptation payoff, T) CD: ik ben coöperatief, de ander verzaakt (Sucker payoff, S) DD: we verzaken beiden (Penalty payoff, P) Je krijgt verschillende spelen als je gaat variëren met P, R, S, T Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Chicken Ook wel: “sway or dare” DC: ik rij rechtdoor, de ander niet CC: we wijken beiden uit CD: ik wijk uit, de ander rijdt rechtdoor DD: we rijden beiden rechtdoor Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Lijkt Chicken op Prisoner of Koffie? • T = Tempation • R = Reward • S = Sucker • P = Penalty • T = Tempation • R = Reward • P = Penalty • S = Sucker Chicken is als Koffie, want doodgaan is nog net wat erger dan “Chicken” genoemd worden Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
DC: ik blijf zitten, de ander ruimt sneeuw CC: we ruimen beiden sneeuw CD: ik ruim sneeuw, de ander niet DD: we ruimen beiden geen sneeuw (en vriezen dood) Snowdrift Ook hier geldt weer: T > R > S > P. Dus identiek aan Chicken en Koffie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
DC: de ander haalt groen terug en terwijl hij dat doet, ga ik in z’n wiel zitten CC: we halen hem samen terug CD: ik haal hem terug, met die ander in m’n wiel (en verminder zo m’n winstkansen) DD: niemand haalt iemand terug (en we verliezen allebei de wedstrijd) Ontsnapte wielrenner terughalen Je con-current Jij Ook hier geldt weer: T > R > S > P. Dus identiek aan Chicken Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
CC: we jagen samen op een hert DC: ik jaag op een haas (jij vruchteloos op een hert) DD: we jagen beiden op een haas CD: jij jaagt op een haas (ik vruchteloos op een hert) Stag Hunt (Hert of haas) Claude Monet. De Jacht (1876) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Stag Hunt (Hert of haas) • R = Reward • T = Tempation • P = Penalty • S = Sucker 5(5) 0(3) Prisoner • T = Tempation • R = Reward • P = Penalty • S = Sucker Koffie • T = Tempation • R = Reward • S = Sucker • P = Penalty 3(0) 1(1)
CC: we komen allemaal DC: ik zeg af, de anderen komen DD: we zeggen allemaal af CD: ik kom, de anderen zeggen af Samen uit, samen thuis Hier geldt weer: R > T > P > S. Dus: Stag Hunt Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Man: DC: we gaan samen naar voetbal CD: we gaan samen naar ballet DD: ik ga naar voetbal, jij gaat naar ballet CC: ik ga naar ballet, jij gaat naar voetbal Battle of the sexes Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Battle of the sexes • T = Tempation • S = Sucker • P = Penalty • R = Reward 0(0) 2(3) 3(2) 1(1)
Battle of the sexes • T = Tempation • S = Sucker • P = Penalty • R = Reward 0(0) 1(3) • T = Tempation • P = Penalty • S = Sucker • R = Reward 3(1) 2(2)
Overzicht van 2x2 competitief Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Nash evenwichten Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Nash evenwichtenPareto-optimaal Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Nash evenwichtenPareto-optimaal tragedy Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Tragedy of the commons Meerdere deelnemers + indirecte interactie, bv. middels gedeelde reserves. Voorbeeld: overbevissing • Als iedereen zich aan het visquotum houdt is er niks aan de hand ( R ) • Verleiding ( T ): jij houd je er, als één van de weinigen, niet aan • Sukkel ( S ): jij houd je er, als één van de weinigen, wel aan • Penalty ( P ): iedereen heeft lak aan het quotum → zee leeg Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Gemixte strategie • Stel, spelerA besluit C met kans p te spelen. We zeggen dan dat A volgens een gemixte strategie met parameterp speelt. Kortweg: de strategie van A is p. • Evenzo noteren we een gemixte strategie van B als q. • Vraagstuk: voor welke paren van kansen vormt (p, q) een Nash-evenwicht? p 1 – p q 1 – q Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Stel, A weet dat B met kans q actie C speelt, i.e., PrB(C) = q Wanneer wordt het voor A interessant om samen te werken? Antwoord: als en slechts als: PayoffA( C | PrB(C) = q ) > PayoffA( D | PrB(C) = q ) Als en slechts als: qR + (1 – q)S > qT + (1 – q)P Als en slechts als: q > (P – S)/(R – T + P – S), als R – T + P – S > 0 q < (P – S)/(R – T + P – S), als R – T + P – S < 0 S > P, anders PrB(C) is bekend { Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Nash-evenwicht bij gemixte strategie • Neem aan dat 0 < R – T + P – S < 1 • In dat geval zagen we dat A • Beter kan samenwerken alsq > (P – S)/(R – T + P – S) • Beter kan verzaken alsq < (P – S)/(R – T + P – S) • Keuze er niet toe doet alsq = (P – S)/(R – T + P – S) • Hetzelfde geldt voor B, maar dan symmetrisch q p Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Stag hunt 4 ( 4 ) Drie Nash-evenwichten,waarvan één gemixt 3 ( 1 ) 1 ( 3 ) 2 ( 2 ) De Ander Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Prisoner’s dilemma Eén Nash-evenwicht,niet gemixt 3 (3) 0 ( 5 ) De Ander 1 (1) Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Chicken (Snowdrift game) 0 ( 0 ) Drie Nash-evenwichten,waarvan één gemixt -1 ( 1 ) 1 ( -1 ) -5 ( -5 ) De Ander Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Battle of the sexes Drie Nash-evenwichten,waarvan één gemixt 3 ( 2 ) 1 ( 1 ) 2 ( 3 ) De Ander 0 ( 0 ) Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Variaties ophet Prisoner’s Dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Variaties • Het herhaalde Prisoner’s Dilemma (Eng.: Iterated PD, IPD) • Een evolutionaire variant van het IPD (EIPD) • Een ruimtelijk-evolutionaire variant van het IPD (SEIPD) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Iterated Prisoner’s Dilemma (IPD) Enkele strategieën: • Altijd samenwerken (ALL-C) • Altijd verzaken (ALL-D) • Maar wat doen (RAND) • Oog om oog“tit for tat”(TFT) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Voorbeeld van2 Episoden van elk 10 Ronden 14 9 26 26 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
D D C C D C C D D C C C C C C D –5 –5 C D D C C C C D D D C D 0 0 0 0 0 0 0 0 5 0 5 0 Met TFT nooit echt veelslechter af dan tegenstander • Speler 2 kan één keer verzaken, maar moet bij wisseling van strategie altijd zijn winst weer inleveren. 2 1 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Andere strategieën • UNFORGIVING: als tegenstander verzaakt, dan nooit meer meewerken • TF2T: tit-for-two-tats: als TFT, maar pas vergelden na twee opeenvolgende defects van tegenstander. • PAVLOV: start met C. Wissel strategie als tegenstander verzaakt Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Toernooi • Axelrod (1984)organiseerde toernooi tussen ingezonden strategieën • And the winner was… Tit For Tat Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Succes: Kan onmogelijk uitgebuit worden Presteert nooit slechter dan tegenstander Zwakte: Kort geheugen: blijft bij D hangen in D, tenzij tegenstander C doet Presteert nooit beter dan tegenstander Succes en zwakte van TFT Tit Tat Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Flake: ecological world Initialisatie: • Stel K strategieën vast, bv. { ALL-C, ALL-D, RAND, TFT, UNFORGIVING, PAVLOV }. (Hier K = 6.) • Stel aantal ronden N vast. (Zeg, N = 200.) • Reward i tegen j = Ri,j = gemiddelde opbrengst voor i tegen j over N ronden. • Geef iedere strategie i een initieel aandeel Pi z.d.d. som der gewichten = 1.0. Herhaal voor E episoden: • Score i = gemiddelde opbrengst voor strategie i. • Pas Piaan op basis van de gewogen score. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Update-formulevoor strategie-aandeel De score van Strategieiop tijdstipt is gelijk aan de gemiddelde interactie-opbrengst van i, gewogen naar de populatieomvang van soorten: Het aandeel van Strategieiop een volgend tijdstipt+1 is gelijk aan Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Flake: ecological world (ideal) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk