Peliteoria

Peliteoria • Ks. • Esim. Grüne-Yanoff & Lehtinen (tulossa): Philosophy of game theory, Handbook for the philosophy of economics, toim. Uskali Mäki • Ross, Don: game theory, Stanford encyclopedia of philosophy

Mitä on peliteoria? • Strategisen vuorovaikutuksen tutkimiseen erikoistunut metodi. • Miksi siitä pitäisi olla filosofina kiinnostunut?  Yhteiskuntatieteessä paljon käytetty metodi, joka perustuu tiettyihin metodologisiin taustaoletuksiin; esim. yksilöiden rationaalisuus (paitsi vrt. evolutionaarinen GT), henkilöiden välisiä hyötyvertailuita ei saa käyttää ym.)  Filosofisia kysymyksiä voi tarkastella peliteoreettisilla välineillä. Esim. vapaamatkustajaongelma, Newcombin ongelma ja kausaalinen päätöksenteon teoria, kooperaatio, koordinaatio, valtion oikeutus, sopimukset, normit jne.  Peliteorian perusteiden ymmärtäminen on välttämätöntä nykyaikaisen sopimusteorian ja ’kollektiivisen intentionaalisuuden’ ymmärtämiseksi (Rawls, Binmore, Skyrms, Young, Tuomela, Gilbert, Searle, Bratman, Pettit ym.)

Peruskäsitteitä • Kooperatiivinen ja non-kooperatiivinen peliteoria • Pelaajat (i,…,n) • Palkkiot  ovat von Neumann-Morgenstern hyötyfunktioita. • Strategiat (määrittävät tekoja kaikissa mahdollisissa pelin vaiheissa) (s1,…sn) • Ratkaisukäsitteet (tasapainot)

Vangin dilemma (PD)

Vangin dilemma • Molemmilla pelaajilla on dominoiva strategia tunnustaa  ennuste on (tunnusta,tunnusta) • Mutta jos molemmat tunnustavat, lopputulos on molemmille huonompi kuin jos kumpikaan ei tunnusta. • Ennuste on siis se, että Pareto-optimaalista vaihtoehtoa ei valita  Kooperaation ongelma: yleistys moneen pelaajaan, esim. yhteismaan ongelma

Sosiaaliset dilemmat • Julkishyödykkeet (non-excludable, non-rival) • ulkoisvaikutukset

Monissa peleissä pelaajilla ei ole dominoivia strategioita. Esim ’sukupuolten taistelu’: Nash tasapaino

Nash tasapaino • Strategiapari (ja sitä vastaavat palkkiot) on Nash tasapaino jos kummallakaan pelaajalla ei ole kannustinta muuttaa toimintaansa tasapainossa. Eli jos kumpikin olettaa toisen pelaavan tasapainostrategiansa mukaisesti, kannattaa pitäytyä tasapainossa. • Useiden Nash tasapainojen ongelma

Informaatio peliteoriassa • Common knowledge (CK) (Lewis 1969): Jokin asia P (palkkio, pelin rakenne, propositio ym.) on CK joss jokainen pelaaja tietää, että P ja jokainen tietää että P ja jokainen tietää että jokainen tietää että P… • Yleensä pelin rakenteen oletetaan olevan CK.

Tulkintoja vangin dilemmalle • Se on rakenne, joka löytyisi maailmasta, mutta jota emme tosiasiassa havaitse, koska on keksitty keino ’ratkaista’ vangin dilemma. Havaitsemme tämän keinon. Esim. valtio ei tarjoaisi julkishyödykkeitä, ellei tällaisten hyödykkeiden tarjonta vapailla markkinoilla olisi vangin dilemma. • Se on rakenne, joka löytyy maailmasta ja joka aiheuttaa ongelmia, jotka pitäisi ratkaista, mutta joita ei ole ratkaistu. Esim. luonnon saastuttaminen etc.

Miten vangin dilemma ’ratkaistaan’ • Toistetaan sitä • Muutetaan PD joksikin muuksi peliksi tarjoamalla sopivia kannustimia. Pelin ratkaisemisella voi tarkoittaa kahta asiaa: • Ratkaisukäsitteen soveltamista  non-kooperatiivinen lopputulema ennusteena • Todellisen ongelmatilanteen ratkaisemista (peliteoriassa käsitellään näistä vain ensimmäistä)

Epäonnistuneita yrityksiä ratkaista PD • Väitetään, että ihmiset jotenkin kuitenkin valitsisivat kooperatiivisen strategian vaikka olisivatkin vangin dilemma- tilanteessa: esim. Gauthierin ’suoraviivaiset’ vs. ’rajoitetut’ maksimoijat, we-mode. • Väitetään, että jos ihmiset välittävät toisen pelaajan hyödystä, he pelaisivat tietyllä tavalla.  Päätös– ja peliteorian tärkein metodologinen periaate: hyötyfunktiot sisältävät aina kaikki mahdolliset tekijät, jotka voisivat motivoida pelaajia.  ongelmatilanteen rajoite: palkkioiden kanssa ei saa kikkailla.

Toistettu vangin dilemma • Superpeli ja vaihepelit • Diskonttauksen perusidea: pelaajat haluavat palkkionsa mieluummin nyt kuin myöhemmin. • Alipelitäydellinen Nash-tasapaino (SPNE)

Diskonttaus • Diskonttoaste (discount rate) r = lisäosamäärä  -yksikköä, joka tarvitaan kompensoimaan sitä, että  saadaan yhtä periodia myöhemmin. (Jos  on ilmaistu rahana, r on sama kuin korkoaste: esim. 100 mk nyt kasvaa vuodessa 104 mk:ksi, jos korkoaste on 4 prosenttia; eli 100 mk vuoden päästä on 1/(1+0.04)*100 arvoinen nyt.) • Diskonttotekijä (discount factor)  = 1/(1+r) = seuraavalla periodilla saatavan - yksikön arvo nykyisissä - yksiköissä, eli määrä, jolla tulevat palkkiot pitää diskontata, jotta saataisiin niiden nykyarvo. • Syitä diskonttaukseen silloin, kun  ei ole rahamääräisesti ilmaistu: - puhdas aikapreferenssi (oikeastaan tämä on irrationaalista; Sidgwíck 1800-luvun lopussa) - epävarmuus siitä, jatkuuko peli vai ei: tn 1-, että nykyinen vaihepeli onkin viimeinen.

Diskonttaus • it = pelaajan i palkkio periodilla t. • Pelaajan i diskontattu kokonaispalkkio on i0 + i1 + i22 +...+ itt +... (merk. 1 +  + 2 +...+ t +...= .  + 2 +...+ t +...=   -  = 1, eli (1-)=1, eli  = 1/(1-) ) • Jos kunkin vaihepelin palkkio on sama, , diskontattu palkkio on /(1-).

Toistettu vangin dilemma • GRIM- strategia: valitse C niin kauan, kunnes toinen valitsee D. Tämän jälkeen valitse D ikuisesti. Onko GRIM vastaan GRIM SPNE? Kannattaako pelata C? 2 tapausta: a) jompikumpi on pelannut D. b) kumpikaan ei ole vielä pelannut D. a) Kummankaan ei kannata pelata C, jos toinen kerran pelaa D.  Jos jompikumpi pelaa D, molempien kannattaa pelata D koko loppupelin ajan. b) Palkkio C:n pelaamisesta on 3 + 3 + 32 + ... = 3/(1-), Palkkio D:n pelaamisesta on 4 + (1 +  + 2 + ...) = 4 + 1/(1-). Pysyttäytyminen GRIM- strategiassa kannattaa jos 3/(1-) > 4 + 1/(1-), eli jos  > ½.  GRIM vastaan GRIM on SPNE jos diskonttotekijä on riittävän suuri (tässä jos  > ½).

TFT: toinen liipasinstrategia • Grim on liipasinstrategia: Aloitetaan kiltillä (nice) pelillä. Jos toinen valitsee halutun kiltin strategian, jatketaan sitä. Jos taas toinen ei pelaa kiltisti, (liipasin vapautuu) aloitetaan toisen rankaisu. • TIT-FOR-TAT (TFT): Valitse ensin C, sen jälkeen periodilla (t) valitse se teko, jonka toinen pelaaja valitsi edellisellä periodilla (t-1). • Axelrod (1984): TIT-FOR-TAT on järkevä strategia monissa olosuhteissa (nice, forgiving ja trigger). TIT-FOR-TAT on erityisen hyvä strategia silloin, kun pelataan useita erilaisia strategioita vastaan. Silti, se ei ole paras mahdollinen strategia kaikkia mahdollisia strategioita vastaan.

Folk teoreema • Käytössykli (behavior cycle) on toistettu ketju tekoja: pelaajat pelaavat (esim.) (C, C) T1 kpl. vaihepeliä, sitten (D, D) T2 vaihepelin ajan, sitten (C, D) T3 vaihepelin ajan, sitten (D, C) T4 vaihepelin ajan jne. • Folk teoreema: Mikä tahansa käytössykli on saavutettavissa alipelitäydellisenä tasapainona, jos diskonttotekijä on lähellä yhtä ( 1). • Folk teoreema sanoo, ettei ole mahdollista sanoa, miten pelaajat pelaisivat äärettömästi toistettua peliä. • Ennustaminen on mahdotonta, koska alipelitäydellisiä tasapainoja on ääretön määrä. • Teoreeman todistus perustuu intuitiivisesti järkevään ideaan: Voidaan aina löytää tapa rankaista toista pelaajaa, vaikka rankaiseminen rankaisee myös rankaisijaa itseänsä, koska tulevaisuuden palkkioilla on väliä jos diskonttotekijä on lähellä yhtä.

Yleisiä johtopäätöksiä toistetuista peleistä • Äärellisesti ja äärettömästi toistettujen pelien ero on suuri. • Axelrod, folk teoreema ym: Yhteistoimintaa (cooperation) voi syntyä ilman keskusvallan (esim. valtion) sekaantumista asioihin, jos pelaajat välittävät riittävästi tulevaisuudesta. • Hyvän maineen rakentaminen kannattaa pitkällä aikavälillä.

Peliteoria

Peliteoria

Presentation Transcript

Paljastetut preferenssit ja peliteoria

Kokeellinen peliteoria