430 likes | 634 Views
Introducción a la Sociomática El Análisis de los Sistemas Adaptables Complejos en el Entorno Socioeconómico. Dr. Gonzalo Castañeda. Capítulo 10 Juegos Evolutivos. 10.0.- Introducción.
E N D
Introducción a la SociomáticaEl Análisis de los Sistemas Adaptables Complejos en el Entorno Socioeconómico.Dr. Gonzalo Castañeda Capítulo 10 Juegos Evolutivos
10.0.- Introducción • Evidencia empírica muestra que la cooperación es mucho más frecuente de lo que sugiere el modelo neoclásico → se requiere de un marco teórico que explique este tipo de comportamientos • ¿Cuáles son las ventajas evolutivas de los comportamientos pro-sociales ante la presencia de actores oportunistas? • La teoría de juegos evolutivos ayuda a explicar preferencias pro-sociales vía mecanismos genéticos y culturales • Desarrollada inicialmente en biología (Maynard-Smith y Price) permite explorar fenómenos socioeconómicos que se manifiestan paulatinamente (innovación estrategias empresariales, instituciones, normas sociales) • Incorpora procesos de aprendizaje para suplir las limitaciones cognitivas de los individuos
Aquí se adopta versión amplia de EGT al incluir lo que algunos autores llaman juegos con aprendizaje (LGT) • EGT en sentido estricto: análisis a nivel poblacional, se habla de replicación de estrategias a través de generaciones • En EGT, a diferencia de CGR, beneficios no son preferencias sino tasas de adaptación • En LGT los individuos de una misma generación aprenden, por lo que se habla de imitación o revisión de estrategias
10.1.- Premisas y conceptos de solución • La teoría de juegos clásicos aporta planteamientos estratégico al enfoque neoclásico, pero mantiene su adherencia a los principios de preferencias exógenas, racionalidad y equilibrio. • EGT considera que precedentes históricos son base de las expectativas y preferencias y que éstas, a su vez, dan lugar a acciones que se convierten en precedentes futuros • “La economía neoclásica describe la forma que opera el mundo una vez que el polvo se ha asentado, en tanto que los juegos evolutivos se interesan en la manera en que ese polvo se logra asentar”
(i) Interacción recurrente. Juegos se repiten, pero no siempre participan los mismos actores →distintas generaciones comparten ciertos atributos. • (ii) Probabilidades diferenciadas de interacción. Posibilidad de interactuar depende de su participación en la población, de su proximidad geográfica y afinidad social (dimensión espacial) • (iii) Procesos de aprendizaje. (i) Aprendizaje no-estratégico o social : los agentes no eligen ni forman inferencias, simplemente las participaciones poblacionales se modifican . (ii) Aprendizaje estratégico o individual : individuos tienen capacidad de elegir y forman inferencias en base a información histórica • (iv) Presencia continua de perturbaciones. El status quo de un sistema evolutivo se ve constantemente amenazado por variantes (mutaciones, innovaciones y errores aleatorios)
*Conceptos de solución (o equilibrio) • Incluir racionalidad acotada → diversidad de modelos en términos del concepto de solución y mecanismos de aprendizaje • Conceptos de solución: (i) estrategias dinámicamente estables (EDE), (ii) estrategias evolutivamente estables (EEVE), (iii) estados estocásticamente estables (EESE) • EDE = concepto de estabilidad asintótica de un sistema de ecuaciones diferenciales. EDE coinciden con algunos de los equilibrios Nash → refinación del concepto de solución (pero sin racionalidad extrema)
* La dinámica de replicación y el origen de las convenciones • Sea un juego de coordinación 2 x 2, en el que dos jugadores tomados al azar de una población interactúan cada periodo. • En el planteamiento convencional existen dos equilibrios Nash en estrategias puras y uno más en estrategias mixtas • El equilibrio de cooperación es pareto superior, pero bajo TJC no es posible determinar si éste es efectivamente alcanzado
Para determinar el equilibrio se postula un proceso de aprendizaje: dinámica de replicación • Si x es la proporción de individuos que utilizan la estrategia de no-cooperación se tiene que: • en donde: • El beneficio medio se estima de manera adaptativa, i.e. en función de la distribución de frecuencias observadas • Por lo tanto: • El equilibrio Nash es polimórfico en x = 11/61 y monomórfico en X = 0 , X = 1. En estos puntos no existe tendencia a que se modifique la participación relativa (d x/ dt = 0)
Sin embargo las únicas EDE son X = 0 y X = 1 (existe una base de atracción alrededor de dichos equilibrios) • El equilibrio al que se llega depende del punto de partida. • La mayor presencia de un atributo reditúa mayores beneficios a los individuos que siguen dicho atributo (retroalimentación positiva).
* Estrategias Evolutivamente Estables: • En las EEVE el equilibrio se define como el fenotipo (estrategia) de una población que no logra ser perturbada a pesar de la presencia de una población pequeña de mutantes con atributos diferentes • Los EESE son aquellos estados que ocurren con mayor frecuencia en el largo plazo a pesar de que el sistema se vea afectado permanentemente por choques aleatorios pequeños • En EDE es común encontrar que el equilibrio depende del punto de partida, pero no así en EESE
Si T es una EEVE que resiste el embate de los mutantes se tiene que cumplir: • Por lo que si se supone linealidad en la utilidad esperada: • Las EEVE se determinan a partir de las siguientes condiciones • En un dilema del prisionero, el desinterés es una EEVE • ya que:
* Equilibrios estocásticamente estables • Un sistema dinámico se ve constantemente influenciado por perturbaciones aleatorias → hay que incorporar errores estocásticos en las ecuaciones de movimiento • Por ejemplo, en un modelo de adaptación por mejor respuesta se puede suponer que individuos eligen idiosincrásicamente con cierta probabilidad • Se dice que el estado de un sistema dinámico perturbado es estocásticamente estable si su probabilidad estacionaria es estrictamente positiva (i.e. ante perturbaciones pequeñas tienen una probabilidad de ser observado en el largo plazo)
En un juego 2 x 2 de coordinación de una solo etapa se habla de dos equilibrios dependiendo de las expectativas de los interlocutores; i.e. conviene cooperar si eso es lo que se anticipa. • Sin embargo, en un proceso dinámico perturbado el ‘desinterés’ es el único EESE
Para que el ‘desinterés’ sea la norma se requiere poco mas del 30% de desinteresados; mientras que para que la cooperación sea la estrategia más segura se requieren poco más del 70% de cooperadores • Si en una primera instancia la mayoría de los individuos cooperan, el ‘desinterés’ puede comenzar a propagarse si se acumulan una serie de comportamientos irracionales. • Es más fácil llegar a una proporción del 30% que del 70% para que los actores racionales modifiquen su estrategia en el sentido del umbral que se rebasa
10.2.- Mecanismos de aprendizaje • En los seres humano existe una diversidad de mecanismos de aprendizaje: ¿se imitan modelos populares? ¿se siguen estrategias ganadoras? ¿se actúa de acuerdo a la mejor respuesta? • (i) Selección natural. Beneficio en función del éxito reproductivo (utilidades en la empresa). En modelos de dinámica de replicación el crecimiento relativo de una estrategia en la población es función lineal del beneficio de dicha estrategia con respecto al promedio • (ii) Imitación. Emulación de comportamientos populares (local o globalmente). Necesario definir preferencias; propensión a imitar decrece con el nivel de beneficios personales • (iii) Reforzamiento. Personas tiene inclinación a reproducir acciones que en el pasado dieron un beneficio y rechazarlas en el caso contrario → en ocasiones basta con conocer beneficios personales • (iv) Mejor respuesta. Personas conscientes del impacto de la interacción, pero beneficios estimados en función de distribuciones empíricas sobre el comportamiento de los demás. En juegos ficticios se tiene sólo conocimiento pasado; es posible acotar la memoria social de manera heterogénea • El mecanismo utilizado depende del fenómeno a analizar, e.g. dinámica de replicación para analizar supervivencia de empresas. Distintos mecanismos pueden producir los mismos equilibrios, pero no siempre es el caso
* Juegos ficticios • Los jugadores van aprendiendo cual es la distribución de probabilidades asociada a la elección de estrategias por parte de sus interlocutores. • La memoria del i-ésimo jugador sobre las veces que el jugador j ha elegido xj viene dada por: • Por lo que las participaciones relativas se definen: • Sea el siguiente juego: • Si el valor inicial de la memoria de A es (1, 2.5) y de B es (2.5, 1), la estrategia 2 es la mejor respuesta para A y la estrategia 1 para B por lo que las nuevas memorias serían: (2, 2.5) y (2.5, 2) y así sucesivamente • Para ciertos juegos se puede mostrar convergencia
* Aprendizaje por adaptación • Selección de estrategias depende de un vector de memoria (h1,….hm) • A partir del criterio de mejor respuesta se puede construir una matriz de probabilidades de transición: M = {mij} • Sea el juego de coordinación: • Con m = 2, la mejor respuesta a ll es l y a rr es r, mientras que para rl o lr se elige r o l con probabilidad ½ • Los diez estados del sistema son: llll, lllr, llrl, llrr, lrlr, lrrl, lrrr, rlrl, rlrr y rrrr; esta concatenación se forma con penúltima y última decisión de cada jugador (el orden de los jugadores no importa → se eliminan seis variante: lrll equivale a lllr)
La matriz de transición correspondiente viene dada por: • Como m1,1 y m10,10 = 1 se dice que llll y rrrr son estados absorbentes
M es la matriz de transición de un periodo, M2 = M M de dos periodos ….Mk de k periodos. • El comportamiento de largo plazo viene dado por: • Se puede utilizar Mathematica para calcular Mk hasta que las celdas sean muy pequeñas o no cambien de un periodo a otro • Más fácil calcular el eigenvector v de M tal que Mv = v restringido a que v[1] = (1,1,…1) • v representa el vector columna de probabilidades de que cada estado llegue a llll: v =(P[llll] = 1, P[lllr],…P[rrrr] = 0) • En el ejemplo: v = (1, 2/3, 5/6, 1/2, 1/3, 1/2, 1/6, 2/3, 1/3,0)’ que corresponde a la primera columna de M*, las columnas 2-9 son vectores de cero y la 10 se obtiene como residual ya que la suma de probabilidades es igual a la unidad
* Estabilidad Estocástica • Se incorporan errores en el proceso de aprendizaje: la decisión de acuerdo con mejor respuesta con probabilidad (1 – e) > 0 • Ahora la matriz de transición viene dada por: • En donde a = (1 –e)2, b = e(1-e), c =(1 – e)/2, d = e/2, e = e2. • Existen varios m1,j > 0, y no solo m1,1 → en el sistema perturbado no hay estados absorbentes.
Si se aplica Mathematica para un e = 0.01 todos los renglones de M* son idénticos al vector: (0.442, 0.018, 0.018, 0.001, 0.0002, 0.035, 0.018, 0.0002, 0.018, 0.442) • El sistema llega a llll o a rrrr el 88.4% de las veces y se mantiene entre los otros ocho estados 11.6% de las veces • La dos convenciones son estados estocásticamente estables • La posibilidad de que haya errores permite que haya desplazamientos súbitos en los que el sistema se mueve de una convención a otra • llll → lllr → lrrr → rrrr la primera y segunda flecha se deben a errores y la última a una elección de mejor respuesta • En un juego de coordinación, con elementos diagonales cero el EESE viene dado por la convención pareto superior.
10.3.- Dinámica evolutiva con tres tipos de atributos • La dinámica con la que se modifica la composición de la población (x, y, z), con x + y + z = 1, se puede analizar a través del diagrama de fase conocido como Simplex • La posición y estabilidad de los puntos fijos interiores (Q) dependen de la matriz de beneficios del juego de la etapa y de los mecanismos de aprendizaje
Un ejemplo de juego con tres atributos es el de los bienes públicos con participación voluntaria • Además de los cooperadores (C) y oportunistas (D) existen los solitarios (S) que optan por retirarse al considerar que el intercambio no les es satisfactorio • El ingreso de S es relativamente bajo pero fijo ya que no depende de la composición de la población (aversión al riesgo) • Algebraicamente los beneficios vienen dados por: • en donde G = nc + nd≤ N (tamaño del equipo) • Se pueden generar oscilaciones: si abundan C a algunos les conviene convertirse en D, pero una vez que estos dominan los más sensato es abstenerse de participar; finalmente, cuando domina S un pequeño grupo de C se integra para crear el bien público (este caso es más factible cuando r > G, por lo tanto se abate conflicto entre preferencias individuales y colectivas) → G se incrementa de nueva cuenta
Dinámica evolutiva de un JBP con participación voluntaria • Programa desarrollado por VirtualLabs: (Voluntary Public Good Games→Well-mixed populations); se utiliza dinámica de replicación • Pantalla (a): N = 6, r = 1.8 < 2, C = 3%, D = 0%, S = 97%, 10,000 agentes → se da una oscilación y la trayectoria revierte a un equilibrio en el que domina S.
Pantalla (b) r = 3 > 2 → cambia el valor de Q y las bases de atracción, lo que hace posible que en equilibrio: 100% D • Pantalla (c) S =50%, D = 25%, C = 25% → coexistencia de los tres atributos, pero inestabilidad hace que población se vuelva homogénea • Otro ejercicio: r = 7 > 6 → desaparece dilema social, domina C
* Mecánicas de aprendizaje • Las mecánicas de aprendizaje seguidas pueden tener implicaciones sobre los resultados generados • (1) Dinámica de replicación convencional: propagación proporcional al desempeño relativo (de la población total o de una muestra aleatoria) • (2) Imitación del mejor jugador: se imita exclusivamente al mejor jugador de una muestra aleatoria • (3) Dinámica de mejor respuesta: a partir del conocimiento sobre la composición de la población se toma la mejor respuesta • Mecánicas de aprendizaje no inciden en la posición de Q pero si en su dinámica: (a) estable en aprendizaje de mejor respuesta, (b) pero puede ser inestable cuando se trata de imitación del mejor exponente
Mecánica de aprendizaje y estabilidad • VirtualLabs: Voluntary Public Good Games→Well-mixed populations →(Imitate better players, best-reply dynamics)). • Pantalla (a) r = 3, N = 5, (C,D,S) uniformemente distribuidos y aprendizaje por imitación → oscilaciones periódicas • Pantalla (b): C = 4%, D = 1% , S = 95% y mejor respuesta → estado fijo interior estables
10.4.- Modelo de negociación descentralizada • Con un sistema markoviano se definen equilibrios de largo plazo • Con un ABM se puede precisar la inercia de un determinado estado y que tan transitoria es una situación de desequilibrio • En el modelo emerge la norma de cómo se distribuye un bien: equitativa, injusta, desequilibrio con disputa sostenida • Un escenario u otro, en una escala de tiempo relevante, depende de factores fortuitos y trayectorias dependientes; aunque teóricamente el EESE puede ser alcanzado en un sistema perturbado desde cualquier condición inicial
* El juego de la división del pastel • En c/periodo de tiempo hay negociaciones bilaterales de cómo dividir el pastel: si la suma de las exigencias es menor o igual al 100% se quedan con la cantidad reclamada, si es mayor al 100% el juego termina en conflicto • Axtell, Epstein y Young consideran tres niveles de exigencia: H, L, M • Existen tres equilibrios Nash, pero evidencia con sujetos humanos señala una preferencia por la combinación justa • En un juego evolutivo, la división equitativa es la única EEVE: los mutantes que demanden más o menos del 50% no pueden invadir
¿Qué pasa si existen equilibrios polimórficos?: ej. la población se divide en partes iguales tal que los avariciosos (H) reclaman 2/3 y los modestos (L) 1/3. • Ambos consiguen en promedio un beneficio de 1/3 del pastel: (H, H) → 0 , (H, L) → 2/3 • La estabilidad del equilibrio es fuerte ya que: (i) efectos retro-alimentadores hacen que la composición de H y L no varíe, (ii) es resistente a ‘super-avaros’, ‘super-modestos’, ‘relativamente justos’ • Todos los equilibrios que reclaman x y 1-x son ineficientes, en el ejemplo anterior 1/3 < ½ del equilibrio justo • ¿Con qué frecuencia se cae en una trampa polimórfica?
La base de atracción de (M,M) es mayor que la de (H,L) → se alcanza para un rango mayor de condiciones iniciales (pantalla a) • La base de atracción de la norma equitativa aumenta si se incrementan las rebanadas del pastel y si existen encuentros correlacionados e = 2/10 (aleatorio e=0, perfecta e =1) (pantalla b)
* El juego del pastel en un contexto espacial • En NelLogo (Model Library → SampleModels → Social Sciences → (unverified) →Divide the Cake). • En cada sitio de la reticula hay un pastel a distribuir, cuando dos agentes se encuentran reclaman su rebanada en función de estrategias predeterminadas: justos (rojo),modestos (café), avariciosos (azul) • La posibilidad de ser clonados en c/periodo se incrementa con el nivel de ganancias obtenido • La movilidad en el espacio la determina el observador
Los justos se propagan cuando se parte de igual número de representantes • La interacción local hace que se formen cluster de justo-justos, justos-modestos, pero nunca de avariciosos-justos (colores rojo y azul) • La población de agentes modestos tiene mayores posibilidades de expandirse cuando su número inicial es mucho mayor (i.e. condiciones iniciales importan)
* Mecánica de aprendizaje en el juego de negociación descentralizada • En c/periodo tienen lugar N/2 encuentros aleatorios en donde la decisión de mejor respuesta se basa en la memoria de c/agente • Los estados se forman con la concatenación de los m registros de memoria de toda la población • El agente elige su mejor respuesta con una probabilidad de (1-e), los registros de H, L, M determinan las frecuencias relativas para estimar el comportamiento esperado del interlocutor • La incorporación de errores en el proceso de aprendizaje hace posible que una convención pueda ser desplazada si éstos se acumulan y se logran modificar expectativas
* Representación diagramática del sistema • Un punto del Simplex corresponde a las frecuencias registradas en la memoria (mL/m, mM/m, mH/m) de un agente, y no a la forma en que se distribuye la población en un cierto periodo • Los puntos describen las expectativas de c/agente, y las regiones de color a las bases de atracción: M se elige en verde, L se elige en rojo y H se elige en azul → la norma equitativa es un EESE ya que el verde es el área mayor
El sistema se puede quedar mucho tiempo en un estado ‘transitorio’ en el que la disputa por el pastel no propicia la conciliación • La experiencia de unos los lleva a H y la de otros a L, pero como están en las fronteras de las regiones azul y rojas no hay coordinación → brincos continuos entre regiones • Incapacidad de conciliar los lleva a perder recursos, en promedio obtienen ¼ cuando con la norma equitativa obtienen ½
* Escalas de tiempo relevantes e inercias • No hay estados absorbentes, por lo que el sistema es ergódico en tanto que las condiciones iniciales no influyen en cual es el EESE • Para e pequeño , y (m,N) grandes la norma equitativa es el EESE • Existe una inercia muy pronunciada, definida como el tiempo de espera para alcanzar el estado estable. • Para e = 0.10, N = 10 y m = 13 el sistema requiere mas de 105 periodos en promedio para transitar de un estado fraccionado a una vecindad de la norma igualitaria • Los tiempos de espera se incrementan con el tamaño de la población y la longitud de la memoria • Ergodicidad descompuesta: en un entorno descentralizado no es fácil ‘descubrir’ la norma igualitaria → el EESE es ‘duro’ computacionalmente
* La aparición de clases sociales mediante un modelo de etiquetas • Los intercambios descentralizados pueden generar clases sociales y discriminación cuando los agentes ’nacen’ con etiquetas, a pesar de que no haya mecanismos de coerción • Las etiquetas sirven para categorizar a la población, aunque no estén asociadas a creencias, comportamientos o competencias iniciales • Los agentes estiman mejor respuesta para cada ‘tono’ de agente dependiendo de la frecuencia en la que c/estrategia es observada en ese subconjunto de la población • Con el paso del tiempo una etiqueta se llega a asociar a una determinada estrategia: tono oscuro se identifica con H y tono claro con L, las expectativas se auto-validan
Equilibrio intra-grupo: división del pastel entre miembros de una misma categoría • Equilibrio inter-grupo: división entre agentes de categorías diferentes. • Posibilidad de un equilibrio desafortunado: norma discriminatoria entre agentes de distinta categoría (tono claro con L, y tono oscuro con H), a la vez que la ‘élite’ mantiene equidad y las ‘masas’ están fraccionadas
10.5.- Las normas sociales como resultados de juegos evolutivos • Existe una diversidad de normas sociales que no vienen de un proceso de aprendizaje individual sino que son producto de cambios generacionales • Este es el caso de normas que acotan la racionalidad; i.e. normas civiles que se cumplen por el simple hecho de estar insertadas en la psique del individuo. • Supón un meta-juego con un conjunto de actitudes que dan lugar a la formación de diferentes vectores de normas civiles • La tasa reproductiva de estos vectores se define en una serie de juegos anidados estáticos con individuos racionales • Por varios años la comunidad está compuesta con clases de individuos, los que toman decisiones racionales dentro de sus opciones factibles; posteriormente el proceso de aprendizaje social hace que uno de estos vector de normas civiles se propague en la sociedad y se convierta en un EEVE.
Sea un conjunto de estrategia S = (x1,….xm), las clases de individuos se definen en función de la disponibilidad de estrategias contenidas en un subconjunto de S. • En cada sub-juego los individuos toman decisiones racionales de su vector de normas civiles X , Y c S (dadas exógenamente) • ¿Cuál de los X c S es una EEVE? • El beneficio u(X, Y) del jugador renglón (tal que X vs Y) se deriva del equilibrio Nash del juego anidado restringido a las estrategias (X, Y)
Considérese un juego del dilema del prisionero extendido: (c) cooperar, (d) defeccionar y (n) no participar • En el dilema del prisionero ampliado no existen estrategias dominantes; en cambio hay un único equilibrio Nash (n, n) • En el juego de selección de normas civiles el equilibrio viene dado por el vector (n, c); la cooperación forma parte de las estrategias posibles → la sociedad puede alcanzar el Pareto superior.
Meta-juego construido a partir de juegos anidados • El número de clases se define en función de las combinaciones posibles de vectores de una, dos y tres estrategias • En el juego anidado de jugadores con clases (d, c) y (n, d, c) el equilibrio Nash viene dado por el par d,n; cuyo beneficio correspondiente es 0. • Es fácil verificar que las condiciones para un EEVE se cumple para (n, c). Primero fijar columna (n,c), como se da la igualdad con (c) fijar ahora columna (c) y checar que las normas (n,c) tienen un beneficio equivalente. • Intuición: la opción ‘n’ les brinda la posibilidad de salirse cuando se enfrentan con egoístas