270 likes | 377 Views
共同进化博弈. 周歆辰 程亮喜 时丹 2010 年 3 月 20 日. 内容提要. 问题的引出 博弈的结构 演化规则和过程 程序实现 结果分析与讨论 结论和未来的工作. 问题的引出. 空间博弈
E N D
共同进化博弈 周歆辰 程亮喜 时丹 2010年3月20日
内容提要 • 问题的引出 • 博弈的结构 • 演化规则和过程 • 程序实现 • 结果分析与讨论 • 结论和未来的工作
问题的引出 空间博弈 经典博弈论主要研究的是博弈的进程随着时间的发展如何演化,而空间的效应仍然是个空白。这个空白在1992年被Nowak和May填补。他们设想了一个元胞自动机,每个方格代表一个博弈者,他和相邻的博弈者进行博弈(比如摩尔邻居或者冯·诺依曼邻居),然后计算博弈之后,所有方格中的博弈者的支付,每个博弈者以一定的规则继承邻居中支付最高的那一个,然后进行下一轮博弈。这样的演化规则将使我们看到在一个空间里,博弈者相互影响,相互学习的状况,从而可以进行一系列有关讨论。
问题的引出 从简单的方格(元胞自动机)到复杂网络博弈,是近期的研究热点。这种转变更加接近现实,并且可能会呈现出与普通网格不一样的结果。没有距离概念的网络,已经被证实是支持合作的产生的。随后,在对集群网络,或者无网络结构也有大量的研究。博弈类型、记忆、环境等多方面的因素也被考虑到空间博弈当中没,例如小世界等多种形式。另外,不同拓扑结构的相互影响以及不同支付矩阵的共存,成为了超出博弈理论以外的影响因素。
问题的引出 演化规则: • 亲属性的演化法则 • 自愿参加 • 社会复杂性 • 连接之间的非对称影响及非对称的进化 • 不同的学习规则 理论上的研究: • 演化动力学 • 有限人口 • 噪音和更多的不确定性
问题的引出 目前的绝大多数研究都只考虑在每一轮中的一个静态博弈,即博弈者并无先后顺序,每个博弈者都不知道在本轮中对方的决定。 我们的研究是基于这种有先后的动态博弈的基础上,通过一定的空间结构来观察博弈者的策略演化情况。这种演化是基于记忆效应的。我们用有限状态机表现这种记忆效应。
博弈的结构 考虑多轮次的多人博弈,在每一轮中,一些博弈者将进行2人动态博弈。为了观察这些动态博弈的进展,对于一类特殊的矩阵,假想了一套“承诺和威胁”体系。在一组二人博弈中,B博弈者先给A发送一个可达到帕累托效率解的信息,然后A做出选择(即是否相信),随后B做出是否遵守诺言的选择。这样,博弈的结果唯一确定,并且B和A的一种类似声望的因素被其他博弈者们观察到,这个声望也会对随后与A或B进行的博弈产生影响。
一个可能的支付矩阵 在左图中,承诺和威胁是可以成立的。B先给A发送一个我会合作的信号,即不论怎样B都会选择向右(图中虚线)。如果A相信了,他会选择右,否则他会选择左。如果B守信,他会选择右,否则选择左。这个威胁如果只运用在单次博弈中就是不可置信的,显然图中深实线表示了该博弈的子博弈完美纳什均衡,也是演化稳定策略。但是在多人博弈中,这个威胁就可能起到效果,因为这可能影响到A或B的声誉。 博弈的结构
博弈的结构 承诺或者威胁能在多人博弈中起到作用的支付矩阵满足的条件:
演化规则和过程 为了研究这个博弈,我们的想法是考虑一个空间博弈,这个博弈建立在方格上,右图是这个一部分博弈空间的示意:
演化规则和过程 在每一轮博弈,博弈者以1/4的概率挑选一个邻居(诺依曼邻居)博弈一次。当所有的博弈者都进行完一次博弈后,他们将在这一轮获得一个支付。连同之前的支付,将有一个支付总值。在学习的过程中,他们总可以以如下方式继承四角的同类博弈者的策略: 这里以A为例,记周围同类邻居为Ai(i=1,2,3,4),在这一轮过后Ai的支付总值为Fi,Pi为继承该博弈者周围同类邻居Ai的概率,则:
演化规则和过程 什么是策略? 策略是一个有限状态机,状态栏表示博弈的对手在过去M个记忆深度的下的行为,即守信程度或者相信程度,策略栏表示自己在这一次所做的行为,如果是A型,就是相信或者不相信,如果是B型,就是守信或者不守信。
演化规则和过程 A的一个可能的有限状态机如右图。守信程度栏中表示B的守信历史,0代表守信,1代表不守信;在策略栏中是A的策略,0代表相信,1代表不相信。记忆深度m=3。
演化规则和过程 B的可能的一个有限状态机表如右图,其中状态栏的第一列表示A在本轮是否相信,如果相信则为0,不相信则为1;第二列表示在记忆深度m=3时A的相信状况,编码规则同上;策略栏中是B的相应的策略,0表示守信,1表示不守信。
演化规则和过程 注意到这样一个博弈中,相信与守信恰好能够与左或者右进行一一映射,于是这种博弈结构能够推广到更加一般的情形。这个映射如下表所示(上图为原矩阵,下图为象矩阵):
程序实现 程序输出的数据: • 每个个体每次博弈的收益值即适应度函数fitness • 每个个体每一次博弈的选择即history数组 • 每个个体的策略串strategy • 每次博弈中守信个体的数目
程序实现 系统中的个体分A型和B型两种,大小为偶数*偶数的矩阵,这样就可以使两种类型的个体依次间隔开来。 A型与B型的不同之处有: • 记忆深度(即记忆博弈对象的历史记录与得益值的步数); • 历史记录的长度(个体的历史记录的长度取决于它的博弈对象的记忆深度); • 策略串的大小(策略串的大小取决于个体的记忆深度与类型。A型个体的策略串的长度等于其记忆深度加1,B型个体的策略串等于其记忆深度加1的两倍)。
结果分析与讨论 程序对100*100大小(即10000个个体,5000个A型,5000个B型)的系统,进行了500步博弈模拟。 将要讨论的一些结果: • 系统中合作者的数目随博弈次数的变化情况 • 各博弈者在每一步的选择情况,即是否合作 • 各博弈者的策略随步数的变化情况 可能对其产生影响的一些因素: • 支付矩阵 • 记忆深度 • 选择、学习、变异的方式 • 其它因素 在下面的讨论中,主要考虑记忆深度和支付矩阵的影响,选择、学习的方式都如前所述, 不再改变,且暂不考虑变异和其它因素。但是由于以后研究的需要,仍将其列出。
首先考虑系统中合作者的数目随博弈次数的变化情况。首先考虑系统中合作者的数目随博弈次数的变化情况。 右图是在如前所述的博弈矩阵下进行的结果,记忆深度为m=2,4,6,8的情形。其中横坐标表示步数,总坐标表示合作者的人数。下同。 结果分析与讨论
结果分析与讨论 我们进行了很多次实验,发现如下几个现象: • 合作者的比例总是先升高再下降,最终减至零。这个结果并没有出现动态平衡,这与我们最初的想法有出入,可以说结果不是很理想,但是这与用遗传算法求解演化稳定策略具有一定的相似之处。 • 当记忆深度越大时,合作者趋于零的速度总体越慢,但是即使是同一个记忆深度,趋于零的速度也是有不同的,这个主要是演化机制中的随机性导致的。这里统计的只是按照同一个记忆深度下,概率密度最大者的趋近速度。
在另一个更具有一般性的支付矩阵下,我们做了同样的实验,其结果如右图。在另一个更具有一般性的支付矩阵下,我们做了同样的实验,其结果如右图。 这个支付矩阵是{1,2,2,1,1,2,2,1},它所得到的结果将不再是简单地减少至零的,这可能是由于它有多个演化稳定策略。我们让其记忆深度m=3,运行1500步,可以发现其仍有波动,但稳定在3000左右。 结果分析与讨论
结果分析与讨论 再来观察博弈者在每一步的选择情况。我们用截屏(snapshots)的方式来阐述这一过程。仍以前述的支付矩阵为例,记忆深度m=3。白色表示合作,黑色表示背叛。下面8幅图中,步数分别为1,50,100,150,200,250,300,350。当进行到400步时,已经完全演化成背叛。从这些图中看出,背叛着以一种聚类或者簇(cluster)的方式演化,这一点在静态共同演化博弈中也曾出现过。
结果分析与讨论 再观察每个博弈者的策略演化情况,具体数据由于比较复杂,在此略去,总体上到稳定阶段时,策略的种类由开始时的多种多样到单调的3到4种,这里仍以上述的支付矩阵和m=3的记忆深度为例。
结论和未来的工作 结论: • 合作者的数目或者比例最终会由支付矩阵的演化稳定策略决定。如果演化稳定策略是唯一的,那么结果将收敛到这一策略,其它情况还不是很明显。 • 记忆深度一定程度上决定了收敛的速度,总体呈现“深度越大,越难收敛”的特点。 • 背叛者以聚类的方式扩散,最终到达稳定状态。 • 策略(有限状态机)的种类数量随着步数减少至很少的数目。
结论和未来的工作 未来的工作: • 改变支付矩阵,使其满足更加一般的条件。可能用到的手段是穷举支付矩阵。 • 改变学习的方式,例如引进费米狄拉克函数进行学习,或者更加直接地,simple the best。 • 增加变异的环节。我们曾经发现加入变异后,合作者人数或者比例可能并不严格地依赖于矩阵本身,最终仍有可能趋向于一个稳定值,并且达到动态平衡,构成复杂系统。这点还需更加深入的研究 • 考虑更多别的因素,正如在“问题的引出”中所提到的那样。
结束语 我们将在接下来的时间里继续研究这个课题,也希望老师们能给我们更多指导,谢谢大家!
参考文献 • (美)格若赫姆·罗珀 著. 柯华庆 闫静怡 译. 博弈论导引及其应用. 中国政法大学出版社. 2005 • Selten, R. Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games. Int J. Game Theory 4, 25-55. 1975 • Drew Fudenberg and Jean Tirole. Perfect Bayesian equilibrium and sequential equilibrium. Journal of Economic Theory. Volume 53, Issue 2, April 1991. Pages 236-260 • William M. Tracy. Paradox Lost: The Evolution of Strategies in Selten's Chain Store Game. 2008 • Steven Hamblin and Peter L. Hurd. Genetic algorithms and non-ESS solitions to game theory models. Animal Behavior. 2007,74. Page 1005-1008 • Maynard Smith, J. Evolution and Theory of Games. Cambridge: Cambrige University Press. 1982 • Challet D. and Zhang Yicheng. Emergence of cooperation and organization in an evolutionary game. Physica A. 1997.3 • Ricardo M. Ara´ujo and Lu´ıs C. Lamb. Towards Understanding the Role of Learning Models in the Dynamics of the Minority Game. Proc. of 16th IEEE ICTAI 2004. 2004 • Wei-Song Yang, Bing-Hong Wang, Yi-Lin Wu and Yan-Bo Xie. Searching good strategies in evolutionary minority game using variable length genetic algorithm. Physica A: Statistical Mechanics and its Applications. Volume 339, Issues 3-4, 15 August 2004. Pages 583-590 • Nowak, M. A. and May, R. M. Evolutionary games and spatial chaos. Nature 359. 1992. 826–829 • Matjaˇz Perca and Attila Szolnokib. Coevolutionary games—A mini review. BioSystems. BIO-3020; No. of Pages17. 2009 • H. Fort. A minimal model for the evolution of cooperation through evolving heterogeneous games. EPL,81. 2008 • Kristian Lindgren. Evolutionary Dynamics in Game-Theoretic Models. Talk presented at the workshop "The economy as an evolving complex system II". Santa Fe Institute. Aug. 26 - Sept. 1. 1995 • Oliver Kirchkamp. Spatial evolution of automata in the prisoners’ dilemma. Journal of Economic Behavior & Organization. Vol. 43 (2000) 239–262. 2000