590 likes | 790 Views
Introducción a la Sociomática El Estudio de los Sistemas Adaptables Complejos en el Entorno Socioeconómico. Dr. Gonzalo Castañeda. Capítulo 13 Razonamiento Inductivo y Aprendizaje. 13.0 . Introducción.
E N D
Introducción a la Sociomática El Estudio de los Sistemas Adaptables Complejos en el Entorno Socioeconómico.Dr. Gonzalo Castañeda Capítulo 13 Razonamiento Inductivo y Aprendizaje
13.0. Introducción • Creencias deductivas requieren conocer la manera en que el mundo opera (problemas bien definidos) • Alternativa: creencias inductivas sobre el comportamiento de los demás y visión subjetiva de la realidad • Enfoque de formación de expectativas más realista: “concurso de belleza” • Creencias sobre creencias más que sobre fundamentos dado lo incierto y complejo del mundo • Metodologías de modelación: impulso-respuesta, heurísticas cognitivas, construcción modelos mentales • Limitaciones de expectativas racionales: ¿cómo explicar ganadores a partir de predicciones si agentes son homogéneos? • En mercados financieros: P = fundamentos ¿Cómo explicar que existan transacciones?
13.1. El problema de El Farol • CAS: creencias subjetivas en base a creencias de los demás; conjeturas se modifican en base a capacidad para predecir la realidad • Formulación mediante un ABM dada la dificultad analítica (B. Arthur) • Otra alternativa: juego de las minorías • Formación de expectativas es crítica en contexto de recursos limitados: se benefician los que tienen una buena regla heurística de predicción (diferente a los demás) • Ejemplos rutas del tráfico citadino; compra-venta de acciones; elección de nichos de mercado; selección de vacaciones; conectarse a la red
* Formulación • El Farol es un bar de Santa Fe (Nuevo México) al que Arthur solía asistir • Externalidad negativa: te beneficias si pocos lo hacen • ¿Se pueden formular creencias sobre creencias tal que (i) existe convergencia y (ii) ex-post decisiones son consistentes en promedio con objetivos (i.e. asistentes al bar cercanos al máximo deseable)? • En un ABM: N (agentes) = 100, L (umbral) = 60; Información: asistentes en semanas previas; si estiman menos de L prefieren ir • Heurísticas de predicción: (i) idéntica a la semana anterior, (ii) igual al promedio de las últimas tres semanas, (iii) igual a la de hace cuatro semanas. • C/agente presenta un conjunto de modelos mentales; desempeño en función de su capacidad de predicción con los datos públicos (m) almacenados en la memoria.
Si hipótesis activa deja de predecir adecuadamente es sustituida • Cada agente presenta un conjunto de hipótesis diferentes (k) a ser evaluadas en el transcurso del tiempo. • Para codificar estas hipótesis: combinación lineal de las concurrencias observadas en las últimas m semanas. • Pronósticos van desde 0 hasta N individuos a partir de m vectores de datos con concurrencias de 0 hasta N: • Limitaciones cognitivas del individuo → se genera un número reducido Nk ≤ R,
* Resultados de las simulaciones • Comportamiento colectivo: concurrencia promedio se mueve rápidamente al umbral de los 60 • Serie presenta comportamiento caótico donde ciclos persistentes se desvanecen
En 100 semanas común encontrar que cerca del 60% de los agentes acuden al bar y 40% restante se queda en casa. • En cada periodo distintas reglas de la ecología disponible se vuelven activas • Unas reglas se adaptan a otras: co-evolución • Resultado se puede generar con estrategias mixtas Nash • Planteamiento de Arthur es más atractivo: permite conocer la dinámica para llegar a este equilibrio y estudiar varianza en la serie de concurrencias
El impacto de la memoria en la volatilidad • Volatilidad decrece conforme se incrementa el número de semanas en la memoria • ‘Inteligencia-inductiva’ → reducción de la volatilidad pero no en la capacidad para adoptar estrategias que los lleven cerca de la concurrencia óptima. • ‘inteligencia-cero’: valor aleatorio entre 0 y N → en promedio L agentes van al bar y N-L se quedan en casa
* El Farol en NetLogo • Si L = 60 → promedio de la concurrencia converge a este número • Si L = 90 Si L = 10 • Solución Nash mixta no es siempre válida con agentes heterogéneos e inducción. • Comportamiento inductivo no produce resultados estrictamente eficientes: individuos mantienen expectativas que los llevan a un comportamiento no deseable. • Existe otra versión en donde cambia la frecuencia con que se asiste (El Farol. Network Congestion )
Reducción en la varianza en la serie de concurrencias: (i) se incrementa la información almacenada (ii) se reduce el número de hipótesis disponibles para cada agente. • Si L = 60, k = 10: • (a) m = 5 (b) m = 10
* El problema de El Farol en teoría de juegos Redefinición: asistencia a un concierto (juego de una tirada) (i) casa →cero beneficios, (ii) concierto →x > 0 cuando a lo más 60 deciden lo mismo, – y < 0 cuando más de 60 van No hay equilibrio con estrategia puras: todos deciden lo mismo Multiplicidad con decisiones no simétricas en el que 60% van ¿Cómo jugadores idénticos generan decisiones diferentes? Tiene sentido en estrategias mixtas: indiferencia entre ir y no ir: x ∙ Pr [a lo más 60 asisten] – y ∙ Pr [más de 60 asisten] = 0
Reescribiendo Pr [a lo más 60 asisten ] = y/(x + y). Encontrar p = probabilidad de que uno decida asistir tal que expresión anterior se cumple Se puede mostrar que si beneficio y desencanto son iguales ( x = y) → p = 0.6 Pero si y >> X p (<< 60%) tiene que ser muy baja para que Pr [a lo más 60 asisten ] sea alta Asistencia promedio al concierto = 100p Por ende para y > x subutilización del espacio: más del 40% de asientos vacíos En El farol existe externalidad negativa: expectativas no se validan En un contexto de estrategias mixtas si se validan
13.2 Juego de las minorías Planteamiento genérico de El Farol: juego de las minorías N agentes que toman una decisión binaria (0, 1) decisión minoritaria gana En El Farol: les va bien a los que se quedan en casa cuando mayoría decide ir Aplicaciones en contextos similares a El Farol En CGT comportamiento estratégico de N individuos, en juego de minorías la persona razona inductivamente sobre comportamiento de multitud Ciertas simplificaciones permiten obtener respuesta analítica a pesar de no-linealidad y desequilibrio
* Simplificaciones analíticas Lo importante no es predecir número exacto de comensales sino si el umbral se rebasa: En vector de memoria sólo se registra si el lugar estuvo vacío o no: El enfoque más abstracto permite mayores aplicaciones y planteamientos analíticos A pesar de que m sea grande, el comportamiento independiente se da en conjunto de hipótesis reducido: 2m Si N > 2m factible encontrar efectos manadas (coordinado) Si pocos jugadores → reglas no similares →comportamiento aleatorio
* Ineficiencia e historias posibles Ineficiencia global: fluctuaciones en comportamiento colectivo (s2) / N Relación (s2/N) e indicador de historias posibles (r = 2m/N) →V asimétrica Si r elevado→ eficiencia baja: muchas reglas independientes → comportamiento aleatorio Si N se eleva → coordinación →baja varianza Pero si r ≈ 0 efectos manada fuertes → grandes fluctuaciones y elevada varianza
* Simulaciones por computadora Sembrado a través de un mapeo: 2m historias posibles → {0, 1}. Reglas con desempeño desafortunado sustituidas por clón de reglas de mejor predicción con probabilidad 1-e y cone regla aleatoria. –explotación vs exploración-. Supón tres posibilidades: adoptar la convención establecida (p = 1), tomar posición contraria (p = 0 ); o seguir la convención de manera aleatoria 0 < p < 1.
¿ cómo se modifica la distribución de p en la población en el transcurso del tiempo? ¿emergen sociedades polarizadas: aquellos que van siempre con la historia y aquellos que van contra ella? La probabilidad se recalcula en la simulación en la medida en que el desempeño del agente es desafortunado Comportamiento observado:
Intuición: con tres agentes y p = (0, 0.5 y 1). En los siguientes casos siempre existe un ganador: (p=1, p=1, p=0), (p=0, p=0, p=1) y (p=0, p=0.5, p=1). Distribución se forma en el tiempo con estos tres casos
* El juego de las minorías en NetLogo Model Library → SampleModels → Social Sciences → Unverified → MinorityGame. Una hipótesis al azar de entre un conjunto es asignada a cada agente. Con regla activa y una historia aleatoria con m datos binarios (memory) se genera el comportamiento colectivo del primer periodo. Con la nueva historia se revalúan todas las hipótesis disponibles para cada agente (hayan sido aplicadas o no) Se adopta la regla con más puntos virtuales. Con el tiempo la variabilidad en el desempeño de las reglas se reduce
Al Iniciar la corrida Tiempo después
13.3. Modelos computacionales de aprendizaje Evidencia psicología humana: esquemas de aprendizaje variados según contexto Validación a través de evidencia experimental y replicación de patrones emergentes Análisis de sensibilidad con diferentes esquemas Modelos de racionalidad acotada describen mejor realidad En economía interesa si el comportamiento es consistente con observado, pero no tanto estudiar los procesos subyacentes y formas para crear modelos mentales
* Clasificación de modelos de aprendizaje (i) Aprendizaje no-consciente: entorno resulta familiar y no hay reflexión, responden a estímulos (rutinas, intuición, compras afectivas, conocimiento tácito) (ii) Aprendizaje consciente: situaciones nuevas, consciencia de consecuencias. Trata de descifrar mecanismos causales. Usado en situaciones importantes (ii) se divide en (a) aprendizaje por heurísticas y (b) por creencias (a) establecer conexión entre experiencias y comportamiento (b) descripción detallada de aprendizaje en cerebro humano (evidencia neurofisiológica y psicológica) y construcción de mapas mentales En ABM predominan no-conscientes y reglas heurísticas
* Aprendizaje no-consciente Tienen que ver con mecanismos de refuerzo o estímulos (reinforcementlearning) Frecuencia de comportamiento varía dependiendo si resultados son positivos o negativos No se requieren habilidades cognitivas ni información histórica Ejemplo: modelo de Roth-Erev C/agente tiene propensión a acción j: qij(t) Probabilidad de acción sea implementada
propensiones se modifican en función del beneficio relativo recibido: R(x) = x – xmin Una experiencia favorable con la acción j no sólo incrementa su propensión sino también la de las otras acciones aunque de manera diluida En modelo de Busch-Mosteller se consideran estímulos negativos y positivos Cuando beneficio es negativo
* Aprendizaje en base a heurísticas Basados en premisas del comportamiento humano: ensayo y error, recolección de experiencias, imitación, seguimiento de aspiraciones (o satisfacción mínima), difusión de ideas e innovación (o exploración) (i) Recolección de experiencia (e..g. aprendizaje por mejoras) (ii) imitación (se compara el beneficio de otros) Utilidad promedio observada para a y para a´ se calcula tanto con experiencia personal y de agentes con los que se interactúa
* Modelos de aprendizaje de creencias Soporte en investigación psicológica sobre aprendizaje cognitivo Construcción de modelos mentales, especificación mecanismos causales. En economía Denzau y North (94) Ejemplos: juego ficticio, aprendizaje estocástico de creencias, redes neuronales, sistemas clasificadores, programación genética, aprendizaje Bayesiano y aprendizaje por mínimos cuadrados Últimos dos usados en modelo neoclásico: aprendizaje que converge a equilibrio !!paradójico en mundo con fluctuaciones, aprendizaje permite reaccionar ante eventualidades ¡¡ Juegos ficticios:
13.4. Aprendizaje-Q Dentro de la familia de aprendizajes con refuerzos Aprendizaje anticipativo: conexión entre acciones y consecuencias corrientes y futuras Método heurístico para resolver ecuación de Bellman de programación dinámica A partir de estado s encontrar a tal que max Q(s,a), y acciones sucesivas también obedecen criterios de optimalidad
Se utiliza criterio de aproximaciones sucesivas en donde se iteran los siguientes pasos (i) A partir de s elegir a y obtener recompensa r al llegar al estado s’ (ii) proceso de actualización de Q: Con algebra se tiene que: (iii) Con QN volver al paso (i) para distintos s.
*Ejemplo del método Problema trivial: 3 periodos, c/estado asociado a una acción: ai→ si Condiciones iníciales: Q(si, ai) = 0, recompensa = ri De si se elige ai→QN(si,ai)=(1-a)0 + a[ri +gmaxb Q(si+1, b)] = ari, para i =1,2 De s3 se elige a3→ QN(s3,a3)=(1-a)0 + a[r3]= a r3. Nueva iteración: De si se elige ai→ QN(si,ai)=(1-a)ari + a[ri +gmaxb Q(si+1, b)] = (1-a)ari + a[ri +g ari+1 ], para i =1,2 De s3 se elige a3→ QN(s3,a3)=(1-a)ar3 + a[r3] De s1 y suponiendo a = 1 → QN(s1,a1) =r1 + gr2 +g2 r3 que es el valor exacto de la función
*Elección de acciones rentables Cuando existen distintas acciones para c/estado decisión maxb Q(si+1, b) no es trivial Si agente en estado s2 y existen tres acciones posibles (a21, a22 y a23) → maximizar función de valor en los tres casos: [Q(s2, a21), Q(s2, a22), Q(s2, a23)]. Valores que se obtiene de condiciones iníciales y experiencias previas Para combinar explotación y exploración se utiliza distribución de Boltzman/Gibbs
* Aprendizaje Q en contexto de búsqueda espacial Objeto en retícula bi-dimensional Estados de la naturaleza describen ubicación física en retícula, acciones describen pasos en una dirección, Recompensas nulas menos cuando se alcanza objetivo r = 100
Si se supone s1 y se elige a12 al azar: QN(s1,a12)=(1-a)0 + a[0 +gmaxb {Q(s2, a21), Q(s2, a25),Q(s2, a23)} ] = 0 El agente en s2 y se elige al azar a23 QN(s2,a23)=(1-a)0 + a[0 +gmaxb {Q(s3, a32), Q(s2, a36)} ] = 0 El agente en s3 y elige al azar a36 se llega al estado final, por lo que la actualización produce QN(s3,a36)=(1-a)0 + a[100 ] Recalculo de la memoria: QN(s1,a12)= 0, QN(s2,a23)= 0 y QN(s3,a36)=100. Si nuevo episodio de búsqueda empieza en el estado s2 y se elige al azar a23: QN(s2,a23)=0 +0.5maxb {Q(s3, a32), Q(s3, a36)} = 0 + 0.5 (100), al suponer a = 1, g = 0.5
* Valores finales al suponer a = 1, g = 0.5 Condiciones para convergencia: (i) ninguna acción queda afuera en los experimentos, (ii) la tasa de aprendizaje se considera decreciente en el tiempo, (iii) el entorno es estacionario y (iv) la probabilidad de transitar del estado s al s’ a partir de la acción a no depende de la historia previa
* Aprendizaje-Q en Netlogo Disponible en la sección de modelos de la comunidad: ReinforcementLearningMaze). Al inicio de cada episodio agente está en una esquina y objeto en la contraria Episodio se define como intento por alcanzar objetivo Episodio se interrumpe cuando se choca con pared o se alcanza objetivo Recompensas: pared (-10); laberinto (0), objetivo (10)
Trayectorias en varios intentos Eficiencia del aprendizaje
13.5. Formación de Expectativas y Evidencia Experimental • Economistas adoptan premisas axiomáticas sobre expectativas • De las expectativas naive o adaptativas a las racionales • E.R. supone que individuos conocen el funcionamiento de la economía y sus características estocásticas. • ¿Agentes aprendan a anticipar variables y sus pronósticos convergen con expectativas racionales? • Convergencia al equilibrio racional sólo bajo ciertas estructuras del mercado (e.g. estabilidad, unicidad, expectativas en la oferta). • El estudio de las expectativas tiene un fuerte componente empírico, históricamente descuidado por los científicos sociales. • Capacidad de diversos criterios teóricos de formación de expectativas para reproducir evidencia encontrada en un mercado experimental.
* El mercado de la telaraña • Mercado tipo telaraña (agrícola): oferta función del precio anticipado, y demanda función del precio observado. • Retroalimentación negativa: expectativa de un precio alto conduce a una mayor oferta, por equilibrio → baja en precios. • En escenario de retroalimentación positiva: expectativas de precios altos → precios aumenta • Característica de mercados especulativos; la demanda y no la oferta es función de los precios anticipados.
Descripción del mercado • Equilibrio: • Demanda agregada: • Oferta agregada: • Precios de equilibrio. • Estabilidad depende de s = S’(p*)/D’(p*)), → sistema es estable cuando -1 < s < 1.
* Características del diseño experimental • Sujetos humanos eligen el precio de producción anticipado (50 periodos) • Oferta agregada: 6 agentes diferentes. • Única información: serie de precios de equilibrio pasados y que p e [ 0 , 10] • Experimento se aplica con 3 tratamientos diferentes vinculados a la estabilidad • Cada uno de estos tratamientos se aplica a 6 grupos diferentes
* Modelos teóricos para la formación de expectativas • Series de precios de equilibrio con cada uno de los tratamientos se comparan con series simuladas con diferentes mecanismos teóricos. • (a) Racionales: precio observado difiere del precio de equilibrio por efecto del componente estocástico del mercado • (b) Naive: último precio observado; agentes cometen errores sistemáticos por no considerar patrones de auto-correlación
(c) Adaptativas: agentes aprenden y modifican sus apreciaciones sobre el precio futuro en función del error de pronóstico • (d) Aprendizaje por promedios: agentes pronostican el precio en t calculando la media de todos los precios observados hasta t-1 (serie suavizada) • (e) Aprendizaje a través de auto-correlaciones muestrales: regla lineal de pronóstico para los precios
* Resultados del Experimento • En las simulaciones teóricas se observa una cierta convergencia con RE en aprendizaje de promedios y SAC • ¿ Existe evidencia sobre cercanía entre precios generados con RE y los obtenidos con ejercicio experimental ? • RE es un buen criterio teórico para anticipar precios en escenarios estables, pero no así en los inestables dada su incapacidad para reproducir los niveles de volatilidad observados. • Expectativas naive se desempeñan adecuadamente en un contexto estable, no así las adaptativas que producen patrones cíclicos significativos que no concuerdan con precios experimentales. • Mecanismos de aprendizaje adaptativo (promedios y SAC) tampoco logran describir la volatilidad en los precios experimentales
Pruebas de media y varianza: RE versus experimental (50 periodos)
13.6.- Aprendizaje en Sistemas Adaptables Complejos • Volatilidad excesiva en los precios de equilibrio del mercado experimental → creencias heterogéneas. • En las simulaciones teóricas se supuso agentes representativos. • Considerar a un conjunto de heurísticas y su selección evolutiva • Sociedad aprende las reglas de movimiento de los precios sin tener conocimiento de ecuaciones que definen equilibrio del mercado. • Co-evolución entre expectativas y comportamiento observado en los precios: creencias inciden sobre el exceso de demanda → beneficios de distintos tipos de expectativas y por ende su evolución.
* Modelos con expectativas heterogéneas • La formación de expectativas obedece a los siguientes puntos: • (i) Agentes pueden elegir de entre un menú de mecanismos posibles (i.e RE, naive) • (ii) Si la regla es más sofisticada (información, conocimiento del entorno) → más costo • (iii) Proceso evolutivo: agentes seleccionan aquellas reglas que en el pasado exhibieron un mejor desempeño. • Existen H reglas de pronóstico disponibles • Ej: heurística lineal:
Popularidad de la regla se modifica en de acuerdo a una función de adaptación: • Función de beneficios esperados: • Equilibrio en un mercado de la telaraña: • Participaciones relativas se modifican en función del valor de adaptación:
* Fundamentalistas versus naive • Fundamentalista: recaba información sobre el mercado → precio anticipado = precio de equilibrio si todos los agentes tuvieran ER (h2t = 0, pt =pt-1 = p*) • Naive: • Simulación: periodos de baja volatilidad y precios cercanos a los fundamentos se intercalan con periodos de elevada volatilidad • Patrón emergente resultado de cambios de la participación de los distintos tipos de agente en el tiempo. • Con precios volátiles a los agentes les conviene incurrir en costos y recabar información que les permita precisar los fundamentos del mercado → en la medida en que aumentan la participación de los fundamentalistas el precio se vuelve menos volátil