1 / 41

第六讲 混合策略

第六讲 混合策略. 上海财经大学 经济学院. 混合策略. 1. 混合策略 2. 期望支付函数 3. 混合策略纳什均衡 4. 应用 监督博弈 报警博弈 Approaching Cars. 1. 混合策略. 例:猜硬币博弈 混合策略(随机策略) 参与者 1 : 以 p 的概率选择正面 , 以 1- p 的概率选择反面 概率分布:  1 =(Prob( s 1 = 正面 ), Prob( s 1 = 反面 ) = ( p , 1- p ) 参与者 2 : 以 q 的概率选择正面 , 以 1- q 的概率选择反面

cain-keith
Download Presentation

第六讲 混合策略

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第六讲 混合策略 上海财经大学 经济学院

  2. 混合策略 • 1. 混合策略 • 2. 期望支付函数 • 3. 混合策略纳什均衡 • 4. 应用 • 监督博弈 • 报警博弈 • Approaching Cars

  3. 1. 混合策略 • 例:猜硬币博弈 • 混合策略(随机策略) • 参与者1: • 以p的概率选择正面, 以1-p的概率选择反面 • 概率分布:1=(Prob(s1=正面), Prob(s1=反面)=(p, 1-p) • 参与者2: • 以q的概率选择正面, 以1-q的概率选择反面 • 概率分布:2=(Prob(s2=正面), Prob(s2=反面)=(q, 1-q)

  4. 1. 混合策略 • 定义: • 参与者的混合策略是定义在参与者纯策略集上的一个概率分布,设定了选择每个纯策略的概率。 • Si={si1, si2 , …, sik} • i=(Prob(si1), …., Prob(sik)) • 参与者i的混合策略集: Si • 混合策略组合: =(1, 2,…, n)

  5. 1.混合策略 参与者 1: 纯策略集:{T, M, B } 混合策略:1= (p1, p2,1-p1-p2) 1(T)= p1, 1(M)= p2 , 1(B)= 1-p1-p2. 参与者 2: 2=(q1, q2,1-q1-q2)

  6. 2. 期望支付函数 给定2的混合策略2, Eu1(正,2)=qu1(正,正)+ (1-q)u1(正,反) =q·(-1)+(1-q)·1=1-2q Eu1(反,2) =qu1(反,正)+(1-q)u1(反,反) =q·1+(1-q)·(-1)=2q-1

  7. 2. 期望支付函数 给定2的混合策略2 Eu1(正,2)=1-2q Eu1(反,2) =2q-1 给定2的混合策略2,参与者 1 选择1的期望支付 Eu1(1, 2) = p·Eu1(正, 2)+ (1-p) · Eu1(反, 2 ) = p·(1-2q)+(1-p) · (2q-1) = 2p-4pq-1

  8. 2. 期望支付函数 给定策略组合(1, 2) = ((p, 1-p), ( q, 1-q)) 参与者 1 的期望支付 Eu1(1, 2) = pEu1(正, 2)+(1- p) pEu1(反, 2) = 2p-4pq-1 参与者 2 的期望支付函数 Eu2(1, 2) = qEu2(1,正) + (1-q)Eu2(1,反) = q·[p-(1-p)]+(1-q)·[-p+1-p] =1-2q+4pq

  9. 2. 期望支付函数 混合策略: 1=( p1, p2, p3 ); 2=(q1, q2, q3 ) 参与者1的期望支付: EU1(1, 2) =1(T)EU1(T, 2)+1(M) EU1(M, 2)+1(B) EU1(B, 2) = p1[q1·0 + q2·3 + q3·1] + p2[q1 ·4 +q2 ·0+q3 ·2] + p3[q1·3 + q2·5 + q3·0]

  10. 2. 期望支付函数 EU1(1, 2) =1(T) EU1(T, 2) + 1(M) EU1(M, 2) + 1(B) EU1(B, 2)

  11. 3. 策略式博弈(含混合策略) • 定义: ( vNM 偏好策略式博弈) 一个vNM 策略式博弈由以下几部分构成: • 参与者集合 • 每个参与者的纯策略集 • 每个参与者对所有混合策略组合的偏好关系,以及表示该好关系的期望支付函数。

  12. 3. 混合策略均衡 定义: 一个混合策略组合* 是一个(混合策略)纳什均衡,如果对所有的参与者 i 都有: EUi(*i, *-i)  EUi(i, *-i)  i Si. 纯策略NE:策略式博弈中,策略组合s∗ 是一个纳什均衡,如果对每一个参与者i都有 ui(s∗) ≥ ui (si, s∗−i) siSi

  13. 3. 混合策略均衡 • 混合策略组合* 是纳什均衡 当且仅当 对所有的参与者都有*i Bi(*-i) • 如果每个参与者都有最优反应函数 bi(-i),那么混合策略组合* 是纳什均衡的充分必要条件是: • *i= bi (*-i) i=1,2,…,N

  14. 3. 混合策略均衡:例1 参与者 1 的最优反应函数B1(q): Max p[0,1] Eu1(p, q) = = 2p-4pq-1 Eu1=2-4q 如果q<0.5, p=1 如果 q>0.5, p=0 如果q=0.5, p[0,1] q 1 1/2 p 1 1/2 B1(q)

  15. 3. 混合策略均衡:例1 参与者 2 的最优反应函数B2(p): Max q[0,1] Eu2(p, q) = =1-2q+4pq Eu2=4 p-2 如果 p<0.5, q=0 如果 p>0.5, q=1 如果 p=0.5, q[0,1] NE: ((0.5,0.5)((0.5, 0.5)) p = 0.5  B1(0.5) q = 0.5 B2(0.5) q 1 1/2 p 1 1/2 混合策略NE B2(p) B1(q)

  16. (2, 2) (0, 1) (1, 0) (1, 1) 例2:狩猎博弈 • 给定 1=(p,1-p) 和2=(q,1-q) • 参与者 1 • EU1(1, 2)= pq·2 +p(1-q)·0 + (1-p)q·1 + (1-p)(1-q)·1 =2 pq-p-q+1 EU1/ p= 2q-1 • 最优反应函数 • 如果q>0.5, p=1; • 如果 q<0.5, p=0; • 如果 q=0.5, p[0.1]. 猎人 2 野猪 (q) 野兔(1-q) 野猪(p) 猎人 1 野兔(1-p)

  17. 例2:狩猎博弈 • 给定 1=(p,1-p) 和 2=(q,1-q) • 参与者1 的最优反应 • 类似的,参与者 2 的最优反应 • 所以,存在三个混合策略纳什均衡 • NE1: ((0.5, 0.5),(0.5, 0.5)) • NE2: ((1,0),(1,0)); NE3: ((0,1),(0,1)); q NE2 1 NE1 1/2 NE3 p 1 1/2

  18. 混合策略纳什均衡性质 • 狩猎博弈存在三个混合策略纳什均衡 • NE1: ((0.5, 0.5),(0.5, 0.5)) • 1(S) =1(H)=0.5>0; 2(S) =2(H)=0.5>0; • Eu1(S, 2) =Eu1(H, 2) • Eu1(S, 2)=0.5·2+0.5·0=1 • Eu1(H, 2)=0.5·1+0.5·1=1 • Eu2(1, S) =Eu1(1, H) • 令=(1, 2)是NE, • 如果i(si1) >0, i(si2)>0 那么一定有ui(si1, -i)= ui(si2, -i) q NE2 1 NE1 1/2 NE3 p 1 1/2

  19. 混合策略纳什均衡性质 • 狩猎博弈存在三个混合策略纳什均衡 • NE2: ((0, 1), (0, 1)) • 1(S) =0, 1(H)=1; 2(S) =0, 2(H)=1; • Eu1(S, 2) <Eu1(H, 2) • Eu1(S, 2) =0 • Eu1(H, 2)=1 • Eu2(1, S ) =0 <Eu1(1, H)=1 • 令=(1, 2)是NE, • 如果i(si1) =0, i(si2)>0 那么一定有ui(si1, -i)  ui(si2, -i) q NE2 1 NE1 1/2 NE3 p 1 1/2

  20. 定理:无差异性质 • 如果一个策略式博弈,每个参与者拥有有限数量的纯策略,那么,一个混合策略组合*构成一个纳什均衡,当且仅当 • 给定*-i ,混合策略*i中被赋予严格正概率的纯策略期望支付相等(或无差异)。 • 给定*-i ,混合策略*i中被赋予0概率的纯策略期望支付不高于被赋予正概率的纯策略期望支付.

  21. 通过无差异性质判断混合策略中哪些策略会被赋予正概率?通过无差异性质判断混合策略中哪些策略会被赋予正概率?

  22. 4. 监督博弈 员工可以选择努力工作或偷懒 工资:w元,但是一旦被发现偷懒,那么得到0。 努力的成本:c元 假设w>c 管理者可以选择监督或不监督 员工产出的价值: R元 如果员工偷懒,那么利润为 0 监督成本:m<w w-c , R-w-m w-c , R-w 0 , -m w , -w

  23. 如果 c<w, m<w,该监督博弈不存在纯策略NE 如果(1*,2*)是混合策略纳什均衡,而且 1*(努力)>0, 1*(S)>0, 2*(M)>0, 2*(N)>0, 那么,给定2* EU1(努力, 2*)= EU1(偷懒, 2*) EU1(努力, 2*)= q·(w-c )+(1-q)·(w-c) =w-c EU1(偷懒, 2*)= q·0 + (1-q)·w = (1-q)·w  w-c=w-w·q  q* = c/w 4 监督博弈

  24. 如果(1*,2*)是混合策略那是均衡,而且 1*(努力)>0, 1*(偷懒)>0, 2*(监督)>0, 2*(不监督)>0, 那么,给定1* EU2(1*, 监督)= EU2(1*,不监督) EU2(1*,监督)= p·(R-w-m)+(1-p)·(-m)= (R-w)p-m EU2(1*,不监督)= p·(R-w)+ (1-p)·(-w) = Rp-w  (R-w)p-m=Rp-w  p*=(w-m) /w 4. 监督博弈

  25. NE: ( ((w-m) /w ,1-(w-m) /w ); (c/w ,1- c/w ) ) Prob(努力) =1- m/w Prob(监督) =c/w 如果 w=100;c=50; R=200; m=10 那么 Prob(努力) =0.9 Prob(监督) =0.5 4. 监督博弈

  26. 员工的期望支付 EU1(1, 2)= p[q·(w-c )+(1-q)·(w-c)] + (1-p) [q·0 + (1-q)·w] EU1(1, 2)p = wq - c 员工的边际收益: wq 员工的边际成本: c 4. 监督博弈

  27. 员工的期望支付 EU1(1, 2)= p[q·(w-c )+(1-q)·(w-c)] + (1-p) [q·0 + (1-q)·w] EU1(1, 2)p = wq-c 员工的最优反应B1(q): 如果wq<c, q < c/w, 就偷懒(p=0) 如果wq>c, q > c/w ,就努力 (p=1) 如果wq=c, q =c/w , 偷懒与努力无差异 (0p1) 4. 监督博弈

  28. 管理者的期望支付 EU2(1, 2)= q· [p·(R-w-m)+(1-p)·(-m)] +(1-q)·[p·(R-w)+ (1-p)·(-w)] = q[p·(R-w)-m]+(1-q) [p·R-w]=R+wq-mq-wpq EU2(1, 2) q= w-m-wp = (1-p)·w -m 管理者的最优反应B2(p): 如果p <1-m/w,就监督(q=1) 如果p >1-m/w ,就不监督(q=0) 如果p = 1-m/w ,监督与不监督无差异 (0q1) 4. 监督博弈

  29. 员工的最优反应B1(q): EU1(1, 2)p = wq-c 如果q < c/w,就偷懒(p=0) 如果q > c/w ,就努力 (p=1) 如果q =c/w , 偷懒与努力无差异 (0p1) 管理者的最优反应B2(p): EU2(1, 2)q= w-m-wp 如果p <1-m/w,就监督(q=1) 如果p >1-m/w ,就不监督(q=0) 如果p = 1-m/w ,监督与不监督无差异 (0q1) NE: ( (1-m/w, m/w); (c/w ,1- c/w ) ) Prob(努力) =1- m/w; Prob(监督) =c/w cpqp (c q=(1/w)c EU1(1, 2)p不变) p 1 q 1 c/w 4. 监督博弈 (w-m) /w

  30. 4. 监督博弈 • 其他版本 • 福利救济博弈 • 审计博弈

  31. 5. 报警博弈 • 参与者: n 个居民 • 行动集: {报警, 不报警} • 偏好: • 如果没有一个人报警,那么得到 0; • 如果自己报警,那么得到 v-c • 如果自己没报警,但其他人中至少有一人报警,那么得到 v。

  32. 5. 报警博弈 • 纯策略纳什均衡 • NE: (参与者 i 报警, 其他人都不报警) i=1,2,…n • 混合策略 • Prob (报警)= p • 问题:当组织规模扩大(n增加)时, • 每个人报价的概率p(n) 会发生什么变化? • 没有一个人报警的概率q(n)会发生什么变化?

  33. 5. 报警博弈 • 混合策略纳什均衡 • Prob (报警)= p • 给定别人的 报警概率,每个人都有 Eu(报警)=Eu(不报警) • Eu(报警)=v-c • Eu(不报警)= 0·Pr{其他人都没报警} + v·Pr {其他人至少有一人报警} • v-c= v·(1-Pr{其他人都没报警}) • c/v= Pr{其他人都没报警} • c/v = (1-p)n-1 • p =1- (c/v) 1/(n-1)

  34. 5. 报警博弈 • 混合策略纳什均衡 • 给定别人的 报警概率,每个人都有 Eu(报警)=Eu(不报警) • c/v= Pr{其他人都没报警} • c/v = (1-p)n-1 • p =1- (c/v) 1/(n-1) • p/n =[1/(n-1) 2] ln(c/v) (c/v) 1/(n-1) < 0 [v>c lnc/v <0] • qPr{没人报警} = Pr{ 参与者i没报警}·Pr{其他人都没报警} = (1-p) (c/v) • q/n =-(c/v) p/n > 0

  35. 小结 • 混合策略的理解 • 含不确定行动的博弈策略 • 演进中持有不同策略类型的参与者的比例 • 多次独立的相同博弈中持有的策略特征 • 核心性质:无差异性质 • 参与者所选择的策略使其他参与者的部分纯策略之间无差异。

  36. 6. Approaching Cars • 两辆车在十字路口交叉行驶 • 两个司机同时决定是停车,还是继续开 • 如果两辆车都不停车,就发生碰撞事故 • 每个司机都不希望出事故 • 都希望对方停车,自己不停车 1 , 1 1- , 2 2,1- 0 , 0

  37. 0<<1 如果(1*,2*)是混合策略纳什均衡,而且 11*>0, 12*>0, 21*>0, 22*>0, 那么,给定2* EU1(停车, 2*)= EU1(继续开, 2*) EU1(停车, 2*)= q+(1-q)·(1-) EU1(继续开, 2*)=2q  q* =(1-) / (2-) 6. Approaching Cars

  38. q* =(1-) / (2-) p* =(1-) / (2-) EU1(1*, 2*)=2 q* =2(1-) / (2-) EU2(1*, 2*)=2 p* =2(1-) / (2-)  EU1 / = -2/(2-)2 <0 6. Approaching Cars

  39. 心理成本:>0 q* =(1-+ ) / (2-) p* =(1- +) / (2-) EU1(1*, 2*)=2 q* =2(1-+ ) / (2-) EU2(1*, 2*)=2 p* =2(1-+ ) / (2-)  EU1 /  = 2/(2-)>0 6. Approaching Cars

  40. 消耗战(Rasmueson, P76) • 纯策略纳什均衡 • 混合策略纳什均衡 • 租金耗散

  41. 演化均稳定均衡 • 演化过程 • 行为模式的继承与变异 • 大多数下一代会继承上一代的行为模式 • 但是存在一个的变异的概率: ε • 或者说一个社会中可能会有外来冲击,试图改变原来的传统 • (演化)选择 • 哪种行为模式下适应性强(收益越高),就具有更强的繁衍能力,有更多的后代,从而使持有该行为模式成员人数增加。

More Related