540 likes | 696 Views
Inleiding adaptieve systemen. Competitie en co öperatie. Inhoud. Twee-persoons competitieve symmetrische niet-nulsom spelen op basis van volledige informatie met simultane zetten en kwantitatieve beloningen Prisoner’s Dilemma ( PD ) Stag Hunt ( SH ) Chicken ( CK )
E N D
Inleiding adaptieve systemen Competitie en coöperatie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Inhoud • Twee-persoons competitieve symmetrische niet-nulsom spelen op basis van volledige informatie met simultane zetten en kwantitatieve beloningen • Prisoner’s Dilemma ( PD ) • Stag Hunt ( SH ) • Chicken ( CK ) • Begrippen: Pareto-optimale oplossing, Nash-evenwicht • Uitbreidingen van het Prisoner’s Dilemma • Geïtereerd ( IPD ) • Geïtereerd evolutionair ( IEPD ) • Geïtereerd ruimtelijk evolutionair ( SIEPD ) • Geïtereerd continu ruimtelijk evolutionair ( CSIEPD ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Coöperatieve spelen Doel: coördinatie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Doel: eigen winst-maximalisatie Competitieve spelen Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Competitieve spelen • Wie doet de vaat? • Gedeelde koffiepot • Meeliften in groepswerk • Wielrenners in een kopgroep • NIMBY problematiek (windmolenpark) • Vangstquotum in de visserij • Handelsoorlog • Wapenwedloop Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Pot koffie zetten (naar apparaat lopen, alle handelingen doen etc.): kosten C = 2 Pot koffie drinken: baten B = 3 Koffie zetten en drinken: nut is B – C = 1 Koffiezet dilemma (C, B) →PD. Voor andere waarden van C en B krijgen we een ander spel. (Doen we nu niet.) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Prisoner’s dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Jij bent speler Speler 1. Je speelt één keer, zonder vooraf te (kunnen of willen) communiceren met Speler 2. Wat zou je doen als je wist dat Speler 2 samenwerkt (C)? Wat zou je doen als je wist dat Speler 2 verzaakt (D)? Dus wat zou je i.h.a. doen? Wat zou Speler 2 i.h.a. doen? Zou het uitmaken als Speler 1 en Speler 2 van te voren mochten communiceren? Een abstractie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Pareto front Sommeren van nut is geen optie. (Som van Euro’s en Dollars = ??) • Een paar αA (αB) heet een gemeenschappelijke strategie • Afgekort met JS (“joint strategy”) • α van “actie” • Een JSdomineert een andere JS als • Tenminste één speler daar strict beter van wordt. • Geen enkele andere speler daar slechter van wordt. • Een JS welke niet gedomineerd wordt door een andere JS, heet Pareto-optimaal • Pareto-front = { PO opl. } Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Je speelt beiden C(C) (links-boven). Heb je reden om van strategie C af te wijken? Heeft B reden om af te wijken? Jij speelt C, maar B speelt D (rechts-boven). Weer dezelfde vragen voor spelers A en B Dezelfde vragen voor JS (C, D) (links-onder). Tenslotte voor JS (D, D) Nash evenwicht Probleem: het Nash-evenwicht is NIET Pareto-optimaal • We zeggen dat een JS zich in een Nash-evenwicht bevindt als geen partij er baat bij heeft zijn strategie (eenzijdig) te veranderen. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Normaalvorm(= generieke 2x2 matrix) CC: we werken samen (Reward payoff, R) DC: ik verzaak, de ander is een sukkel (Temptation payoff, T) CD: ik ben coöperatief de ander verzaakt (Sucker payoff, S) DD: we verzaken beiden (Penalty payoff, P) Je krijgt verschillende spelen als je gaat variëren met P, R, S, T Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Tragedy of the commons Meerdere deelnemers + indirecte interactie, bv. middels gedeelde reserves. Voorbeeld: overbevissing • Als iedereen zich aan het visquotum houdt is er niks aan de hand ( R ) • Verleiding ( T ): jij houd je er, als één van de weinigen, niet aan • Sukkel ( S ): jij houd je er, als één van de weinigen, wel aan • Penalty ( P ): iedereen heeft lak aan het quotum → zee leeg • Column van Lebbis in Spijkers met Koppen 30 mei 2009, op ong. 00:45 min. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
DC: ik ga praten (verklikken) ten koste van mijn partner CC: we houden beiden onze mond DD: we gaan allebei praten CD: ik houd m’n mond, maar wordt verklikt door mijn partner Prisoner’s dilemma T > R > P > S Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Chicken: T > R > S > P Ook wel: “sway or dare” DC: ik rij rechtdoor, de ander niet CC: we wijken beiden uit CD: ik wijk uit, de ander rijdt rechtdoor DD: we rijden beiden rechtdoor Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
DC: ik blijf zitten, de ander ruimt sneeuw CC: we ruimen beiden sneeuw CD: ik ruim sneeuw, de ander niet DD: we ruimen beiden geen sneeuw (en vriezen dood) Snowdrift: T > R > S > P Ook hier geldt weer: T > R > S > P. Dus identiek aan Game of Chicken Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
DC: de ander haalt groen terug en terwijl hij dat doet, ga ik in z’n wiel zitten CC: we halen hem samen terug CD: ik haal hem terug, met die ander in m’n wiel (en verminder zo m’n winstkansen) DD: niemand haalt iemand terug (en we verliezen allebei de wedstrijd) Ontsnapte wielrenner terughalen Je con-current Jij Ook hier geldt weer: T > R > S > P. Dus identiek aan Game of Chicken Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
CC: we jagen samen op een hert DC: ik jaag op een haas (jij vruchteloos op een hert) DD: we jagen beiden op een haas CD: jij jaagt op een haas (ik vruchteloos op een hert) Hert of haas: R > T > P > S Hier geldt NIET: T > R > S > P. Dus NIET identiek aan Game of Chicken Claude Monet. De Jacht (1876) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
CC: we komen allemaal DC: ik zeg af, de anderen komen DD: we zeggen allemaal af CD: ik kom, de anderen zeggen af Samen uit, samen thuis Hier geldt weer: R > T > P > S. Dus: Stag Hunt Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Man: DC: we gaan samen naar voetbal CD: we gaan samen naar ballet DD: ik ga naar voetbal, jij gaat naar ballet CC: ik ga naar ballet, jij gaat naar voetbal Battle of the sexes T > S > P > R Weer andere ordening dan Prisoner’s, Chicken en Stag Hunt. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
R S T P Postulaten voor coöperatie Een meewerkende partner levert meer op dan een partner die verzaakt: • CC > CD ( R > S ): als ik meewerk, is het beter dat mijn partner dat ook doet • DC > DD ( T > P ): als ik verzaak, kan ik profiteren van een meewerkende sukkel Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Mogelijke postulaten voor verzaken Verzaken levert winst op: • DC > CC ( T > R ): als mijn partner meewerkt, is het beter voor mij te profiteren. • DD > CD ( P > S ): als mijn partner verzaakt, kan ik zelf ook beter verzaken R S T P Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Ordening van strategieën DC 2 3 DD CC 4 1 CD Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Chicken: DC > CC > CD > DD DC 2 3 DD CC ! 4 1 CD Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Hert of haas: CC > DC > DD > CD DC ! 2 3 DD CC 4 1 CD Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Prisoner’s: DC > CC > DD > CD DC 2 3 DD CC 4 1 CD Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Generieke 2x2 strategie-matrix Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Overzicht van 2x2 competitief Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Competitie en coöperatie Gemixte strategieën Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Stel, A weet dat B met kans q actie C speelt, i.e., PrB(C) = q Wanneer wordt het voor A interessant om samen te werken? Antwoord: als en slechts als: PayoffA( C | PrB(C) = q ) > PayoffA( D | PrB(C) = q ) Als en slechts als: qR + (1 – q)S > qT + (1 – q)P Als en slechts als: q > (P – S)/(R – T + P – S), als R – T + P – S > 0 q < (P – S)/(R – T + P – S), als R – T + P – S < 0 S > P, anders PrB(C) is bekend { Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Gemixte strategie • Stel, spelerA besluit C met kans p te spelen. We zeggen dan dat A volgens een gemixte strategie met parameterp speelt. Kortweg: de strategie van A is p. • Evenzo noteren we een gemixte strategie van B als q. • Vraagstuk: voor welke paren van kansen vormt (p, q) een Nash-evenwicht? p 1 – p q 1 – q Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Nash-evenwicht bij gemixte strategie • Neem aan dat 0 < R – T + P – S < 1 • In dat geval zagen we dat A • Beter kan samenwerken a.e.s.a. q > (P – S)/(R – T + P – S) • Beter kan verzaken a.e.s.a. q < (P – S)/(R – T + P – S) • In alle andere gevallen is de waarde van p voor A irrelevant. • Hetzelfde geldt voor B, maar dan symmetrisch q p Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Stag hunt (samen uit, samen thuis) 4 ( 4 ) Drie NE, waarvan één labiel 3 ( 1 ) 1 ( 3 ) 2 ( 2 ) De Ander Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Prisoner’s dilemma Eén NE 3 (3) 0 ( 5 ) De Ander 1 (1) Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Chicken (Snowdrift game) Drie NE 0 ( 0 ) -1 ( 1 ) 1 ( -1 ) -5 ( -5 ) De Ander Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Battle of the sexes Eén NE 3 ( 2 ) 1 ( 1 ) 2 ( 3 ) De Ander 0 ( 0 ) Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Variaties ophet Prisoner’s Dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Variaties • Het herhaalde Prisoner’s Dilemma (Eng.: Iterated PD, IPD) • Een evolutionaire variant van het IPD (EIPD) • Een ruimtelijk-evolutionaire variant van het IPD (SEIPD) • Een continu-ruimtelijk-evolutionaire variant van het IPD (CSEIPD) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Iterated Prisoner’s Dilemma (IPD) Enkele strategieën: • Altijd samenwerken (ALL-C) • Altijd verzaken (ALL-D) • Maar wat doen (RAND) • Oog om oog, tand om tand (Engels: tit-for-tat, TFT) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Voorbeeld van2 Episoden van elk 10 Ronden Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Opbrengst van rij t.o.v. kolom Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
D D C C D C C D D C C C C C C D –5 –5 C D D C C C C D D D C D 0 0 0 0 0 0 0 0 5 0 5 0 Met TFT nooit echt veelslechter af dan tegenstander • Speler 2 kan één keer verzaken, maar moet bij wisseling van strategie altijd zijn winst weer inleveren. 2 1 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Succes: Kan onmogelijk uitgebuit worden Presteert nooit slechter dan tegenstander Zwakte: Kort geheugen: blijft bij D hangen in D, tenzij tegenstander C doet Presteert nooit beter dan tegenstander Succes en zwakte van TFT Tit Tat Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Andere strategieën • UNFORGIVING: als tegenstander verzaakt, dan nooit meer meewerken • TF2T: tit-for-two-tats: TFT, maar pas vergelden na twee opeenvolgende defects van tegenstander. • PAVLOV: start met C. Wissel strategie als sucker of punishment. Werkt beter onder noise dan TFT. Meer: ziemijn master seminar over adaptive agents, onderdeel “repeated games” Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Flake: ecological world Initialisatie: • Stel K strategieën vast, bv. { ALL-C, ALL-D, RAND, TFT, UNFORGIVING, PAVLOV }. (Hier K = 6.) • Stel aantal ronden N vast. (Zeg, N = 200.) • Reward i tegen j = Ri,j = gemiddelde opbrengst voor i tegen j over N ronden. • Geef iedere strategie i een initieel aandeel Pi z.d.d. som der gewichten = 1.0. Herhaal voor E episoden: • Score i = gemiddelde opbrengst voor strategie i. • Pas Piaan op basis van de gewogen score. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Update-formulevoor strategie-aandeel De score van Strategieiop tijdstipt is gelijk aan de gemiddelde interactie-opbrengst van i, gewogen naar de populatieomvang van soorten: Het aandeel van Strategieiop een volgend tijdstipt+1 is gelijk aan Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Flake: ecological world (ideal) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Flake: ecological world (noise-free) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Flake: ecological world (noise) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk
Initiële populatie: 60% coöperatief, rest verzaakt. Strategie per cel: Concurreer met acht buren. Adapteer strategie van meest succesvolle buur. Kleuren: Blauw: blijft C Rood: blijft D Geel: D → C Groen: C → D N.B. Het ruimtelijk IPD zoals te vinden in Netlogo ≠ het ruimtelijk IPD zoals dat beschreven is in het boek van Flake Interessante parameter: beloning om samen te werken α Spatial iterated PD (SIPD) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk