E N D
Nos centraremos en la repetición de juegos con estructura del dilema del prisionero, en los que se produce un conflicto entre el resultado eficiente, que se obtiene cuando ambos jugadores eligen Cooperar (6,6), y el resultado ineficiente que se origina cuando ambos jugadores eligen su acción dominante, No Cooperar (2,2).
El número de estrategias para cada jugador que juegue el dilema del prisionero durante dos periodos asciende a 32 (2 acciones en el primer periodo x 16 combinaciones en el segundo). De esta tabla podemos destacar diversas estrategias de interés: se puede observar que hay estrategias incondicionales, por ejemplo, la estrategia 1 implica cooperar siempre independientemente de la historia previa, del mismo modo que la estrategia 32 supone no cooperar nunca tras toda historia posible. Algunas estrategias, como la estrategia 7, tienen una importancia especial para sostener la cooperación.
Esta estrategia (7) dicta que el jugador 1 comience cooperando en el primer periodo e incorpora un castigo al oponente, puesto que si el jugador 2 ha elegido una acción distinta de cooperar en el primer periodo, el jugador 1 elegirá no cooperar. Esta estrategia recibe el nombre de estrategia del disparador o gatillo (trigger strategy). Debido a su importancia para garantizar la cooperación, a continuación vamos ofrecer la definición formal y general de esta estrategia:
Estrategia del disparador (o del gatillo) (D) : Esta estrategia para el jugador i simplemente estipula que en el primer periodo comience cooperando, y que continúe cooperando mientras también lo haga su rival. Pero si alguna vez éste no coopera, no volver a cooperar nunca más. Esta estrategia condiciona lo que se va a jugar en cada periodo en función de lo que se ha jugado en el pasado. En concreto, si el oponente alguna vez ha jugado NC, a partir de entonces jugará para siempre la acción NC.
7.3 Algunos equilibrios Nash en juegos repetidos con horizonte infinito. ¿Bajo qué condiciones existen equilibrios Nash del dilema del prisionero repetido en los que se obtiene el resultado cooperativo a largo plazo? No obstante, debe advertirse que en un juego repetido no serán los únicos EN del juego repetido. También sería un equilibrio Nash de este juego repetido el par de estrategias en el que cada jugador elige su acción dominante en cada juego de etapa. En concreto, el par de estrategias en las que cada jugador elige siempre NC (es decir, NC tras toda historia posible) es también un EN del juego repetido: si un jugador adopta esta estrategia, la mejor respuesta del otro jugador es adoptarla también.
La definición formal de esta estrategia es: Estrategia de elegir NC siempre para el jugador i : Empezar jugando NC . Seguir jugando NC tras toda historia.
Pero estamos especialmente interesados en la obtención de aquella clase de EN en los que se puede sostener la cooperación a largo plazo, jugando un juego de etapa en cada periodo en el que la acción dominante es la de no cooperar, como el juego del dilema del prisionero. La estrategia “elegir C tras toda historia” ¿es un EN del juego repetido? La idea que hemos adelantado previamente es que la amenaza de un castigo a los jugadores que no cooperen puede ser decisivo para crear y mantener esta cooperación. Comencemos comprobando un EN consistente en que ambos jugadores utilizan una estrategia en el que la amenaza de castigo es máxima, la estrategia del disparador (D), según la cual si algún jugador no coopera se le castiga eternamente.
Por tanto, el par de estrategias del disparador constituyen un EN del dilema del prisionero repetido si: • 6/(1-) 8 + 2/(1-), es decir, si 1/3. • Es decir, siempre que ambos jugadores sean lo suficientemente pacientes (en concreto, si 1/3) jugar la estrategia del disparador por parte de cada jugador constituye un equilibrio Nash del juego repetido con horizonte indefinido, en el que los jugadores cooperan periodo tras periodo. • Si no son suficientemente pacientes no se puede obtener cooperación • La estrategia del disparador se caracteriza por desencadenar un “castigo eterno” (jugar NC) ante una acción NC del rival.
Hasta el momento hemos visto estrategias, en las que la duración de la etapa de castigo no depende del comportamiento del jugador que se ha desviado durante el castigo. Es decir, aunque el jugador que se desvía a la no cooperación volviese a cooperar, no se le “perdona” y el castigo se mantiene, sea para siempre. A continuación, analizaremos una estrategia en la que la duración del castigo depende de la conducta del rival durante los periodos de castigo. En concreto, si durante los periodos de castigo continúa eligiendo NC, entonces el jugador que castiga también sigue eligiendo NC, mientras que si su rival vuelve a C, entonces el jugador que castiga vuelve a C también.
Esta estrategia se conoce como la estrategia de “Toma y Daca” , (Tit for Tat strategy) o estrategia del Talión (TD) que consiste sencillamente en comenzar cooperando y luego hacer lo que hizo tu rival en el periodo anterior. Definamos formalmente esta estrategia, Estrategia del Talión: Empezar cooperando, elegir en el primer periodo C, En el periodo segundo y posteriores , elegir la acción que ha elegido tu rival en el periodo anterior , es decir elegir C si el oponente ha elegido C en el perido anterior elegir NCsi el oponente ha elegido NC en el periodo anterior
¿Bajo qué condiciones el par de estrategias (TD,TD) constituye un EN del juego repetido con horizonte indefinido
¿Bajo qué condiciones el par de estrategias (TD,TD) constituye un EN del juego repetido indefinidamente? Si ambos jugadores utilizan esta estrategia, evidentemente se cooperará en todos los periodos y el pago final de cada jugador será , como sabemos, 6/(1-). Para comprobar que ninguna desviación unilateral es provechosa, supongamos que el jugador 1 adopta esta estrategia. Si el jugador 2 se desvía en el primer periodo a NC, el jugador 1, siguiendo esta estrategia, jugará en el segundo periodo NC.
Por su parte, el jugador 2 en el segundo periodo tiene dos opciones. Puede volver a jugar C, en cuyo caso sabe que el jugador 1, que juega la estrategia TD, volverá a cooperar en el tercer periodo, volviéndose en este sentido al punto de partida. Es decir, con esta forma de desviarse el jugador 2 iría alternando NC y C. La otra posible continuación de la desviación en el segundo periodo es seguir jugando NC indefinidamente, con lo que el jugador 1 seguiría jugando también NC.
Luego, debemos analizar las dos posibles desviaciones del jugador 2. En el primer caso, el jugador 2 se desvía en el primer periodo y juega NC, y en los siguientes periodos alterna entre NC y C. Dado que el jugador 1 se mantiene en la estrategia de toma y daca, la senda del juego será: t=1 t=2 t=3 ........ Acciones Jugador 1 CNCC Jugador 2 NCCNC Pagos Jugador 1 -28-2 Jugador 2 8-28
Por tanto, en este caso, el pago para el jugador 2 (el que se ha desviado) sería: 8 + (-2) + 28 + 3(-2) + ... = 8/(1-2) + (-2)/(1- 2)
En el segundo caso, cuando el jugador 2 juega siempre NC y el dado que el jugador 1 juega la estrategia TD, la tabla que nos muestra la secuencia de acciones y pagos de ambos jugadores es la siguiente: t=1 t=2 t=3 ........ Acciones Jugador 1 C NC NC Jugador 2 NC NC NC Pagos Jugador 1 -2 2 2 Jugador 2 8 2 2 El jugador 2 obtendría un pago total: 8 + 2 + 22 + 32 + ...... = 8 + 2/(1-).
Hemos visto anteriormente que la suma descontada de la corriente de pagos para ambos jugadores si se adhieren a la estrategia TD es 6/(1-). • Por tanto para que esta combinación de estrategias constituya un equilibrio Nash, • este pago debe ser mayor o igual que cualquiera de las posibles desviaciones en que pueden incurrir los jugadores, es decir, se tiene que cumplir simultáneamente que: • 6/(1-) 8/(1-2) + (-2)/(1- 2) • 6/(1-) 8 + 2/(1-).
Ambas desigualdades se cumplen si 1/3. Por tanto si los jugadores son lo suficientemente pacientes existirá un equilibrio Nash del juego repetido con horizonte infinito en el que los jugadores logran la cooperación mediante la utilización de las estrategias simples de “toma y daca”.