430 likes | 840 Views
第六讲 混合策略. 上海财经大学 经济学院. 混合策略. 1. 混合策略 2. 期望支付函数 3. 混合策略纳什均衡 4. 应用 监督博弈 报警博弈 Approaching Cars. 1. 混合策略. 例:猜硬币博弈 混合策略(随机策略) 参与者 1 : 以 p 的概率选择正面 , 以 1- p 的概率选择反面 概率分布: 1 =(Prob( s 1 = 正面 ), Prob( s 1 = 反面 ) = ( p , 1- p ) 参与者 2 : 以 q 的概率选择正面 , 以 1- q 的概率选择反面
E N D
第六讲 混合策略 上海财经大学 经济学院
混合策略 • 1. 混合策略 • 2. 期望支付函数 • 3. 混合策略纳什均衡 • 4. 应用 • 监督博弈 • 报警博弈 • Approaching Cars
1. 混合策略 • 例:猜硬币博弈 • 混合策略(随机策略) • 参与者1: • 以p的概率选择正面, 以1-p的概率选择反面 • 概率分布:1=(Prob(s1=正面), Prob(s1=反面)=(p, 1-p) • 参与者2: • 以q的概率选择正面, 以1-q的概率选择反面 • 概率分布:2=(Prob(s2=正面), Prob(s2=反面)=(q, 1-q)
1. 混合策略 • 定义: • 参与者的混合策略是定义在参与者纯策略集上的一个概率分布,设定了选择每个纯策略的概率。 • Si={si1, si2 , …, sik} • i=(Prob(si1), …., Prob(sik)) • 参与者i的混合策略集: Si • 混合策略组合: =(1, 2,…, n)
1.混合策略 参与者 1: 纯策略集:{T, M, B } 混合策略:1= (p1, p2,1-p1-p2) 1(T)= p1, 1(M)= p2 , 1(B)= 1-p1-p2. 参与者 2: 2=(q1, q2,1-q1-q2)
2. 期望支付函数 给定2的混合策略2, Eu1(正,2)=qu1(正,正)+ (1-q)u1(正,反) =q·(-1)+(1-q)·1=1-2q Eu1(反,2) =qu1(反,正)+(1-q)u1(反,反) =q·1+(1-q)·(-1)=2q-1
2. 期望支付函数 给定2的混合策略2 Eu1(正,2)=1-2q Eu1(反,2) =2q-1 给定2的混合策略2,参与者 1 选择1的期望支付 Eu1(1, 2) = p·Eu1(正, 2)+ (1-p) · Eu1(反, 2 ) = p·(1-2q)+(1-p) · (2q-1) = 2p-4pq-1
2. 期望支付函数 给定策略组合(1, 2) = ((p, 1-p), ( q, 1-q)) 参与者 1 的期望支付 Eu1(1, 2) = pEu1(正, 2)+(1- p) pEu1(反, 2) = 2p-4pq-1 参与者 2 的期望支付函数 Eu2(1, 2) = qEu2(1,正) + (1-q)Eu2(1,反) = q·[p-(1-p)]+(1-q)·[-p+1-p] =1-2q+4pq
2. 期望支付函数 混合策略: 1=( p1, p2, p3 ); 2=(q1, q2, q3 ) 参与者1的期望支付: EU1(1, 2) =1(T)EU1(T, 2)+1(M) EU1(M, 2)+1(B) EU1(B, 2) = p1[q1·0 + q2·3 + q3·1] + p2[q1 ·4 +q2 ·0+q3 ·2] + p3[q1·3 + q2·5 + q3·0]
2. 期望支付函数 EU1(1, 2) =1(T) EU1(T, 2) + 1(M) EU1(M, 2) + 1(B) EU1(B, 2)
3. 策略式博弈(含混合策略) • 定义: ( vNM 偏好策略式博弈) 一个vNM 策略式博弈由以下几部分构成: • 参与者集合 • 每个参与者的纯策略集 • 每个参与者对所有混合策略组合的偏好关系,以及表示该好关系的期望支付函数。
3. 混合策略均衡 定义: 一个混合策略组合* 是一个(混合策略)纳什均衡,如果对所有的参与者 i 都有: EUi(*i, *-i) EUi(i, *-i) i Si. 纯策略NE:策略式博弈中,策略组合s∗ 是一个纳什均衡,如果对每一个参与者i都有 ui(s∗) ≥ ui (si, s∗−i) siSi
3. 混合策略均衡 • 混合策略组合* 是纳什均衡 当且仅当 对所有的参与者都有*i Bi(*-i) • 如果每个参与者都有最优反应函数 bi(-i),那么混合策略组合* 是纳什均衡的充分必要条件是: • *i= bi (*-i) i=1,2,…,N
3. 混合策略均衡:例1 参与者 1 的最优反应函数B1(q): Max p[0,1] Eu1(p, q) = = 2p-4pq-1 Eu1=2-4q 如果q<0.5, p=1 如果 q>0.5, p=0 如果q=0.5, p[0,1] q 1 1/2 p 1 1/2 B1(q)
3. 混合策略均衡:例1 参与者 2 的最优反应函数B2(p): Max q[0,1] Eu2(p, q) = =1-2q+4pq Eu2=4 p-2 如果 p<0.5, q=0 如果 p>0.5, q=1 如果 p=0.5, q[0,1] NE: ((0.5,0.5)((0.5, 0.5)) p = 0.5 B1(0.5) q = 0.5 B2(0.5) q 1 1/2 p 1 1/2 混合策略NE B2(p) B1(q)
(2, 2) (0, 1) (1, 0) (1, 1) 例2:狩猎博弈 • 给定 1=(p,1-p) 和2=(q,1-q) • 参与者 1 • EU1(1, 2)= pq·2 +p(1-q)·0 + (1-p)q·1 + (1-p)(1-q)·1 =2 pq-p-q+1 EU1/ p= 2q-1 • 最优反应函数 • 如果q>0.5, p=1; • 如果 q<0.5, p=0; • 如果 q=0.5, p[0.1]. 猎人 2 野猪 (q) 野兔(1-q) 野猪(p) 猎人 1 野兔(1-p)
例2:狩猎博弈 • 给定 1=(p,1-p) 和 2=(q,1-q) • 参与者1 的最优反应 • 类似的,参与者 2 的最优反应 • 所以,存在三个混合策略纳什均衡 • NE1: ((0.5, 0.5),(0.5, 0.5)) • NE2: ((1,0),(1,0)); NE3: ((0,1),(0,1)); q NE2 1 NE1 1/2 NE3 p 1 1/2
混合策略纳什均衡性质 • 狩猎博弈存在三个混合策略纳什均衡 • NE1: ((0.5, 0.5),(0.5, 0.5)) • 1(S) =1(H)=0.5>0; 2(S) =2(H)=0.5>0; • Eu1(S, 2) =Eu1(H, 2) • Eu1(S, 2)=0.5·2+0.5·0=1 • Eu1(H, 2)=0.5·1+0.5·1=1 • Eu2(1, S) =Eu1(1, H) • 令=(1, 2)是NE, • 如果i(si1) >0, i(si2)>0 那么一定有ui(si1, -i)= ui(si2, -i) q NE2 1 NE1 1/2 NE3 p 1 1/2
混合策略纳什均衡性质 • 狩猎博弈存在三个混合策略纳什均衡 • NE2: ((0, 1), (0, 1)) • 1(S) =0, 1(H)=1; 2(S) =0, 2(H)=1; • Eu1(S, 2) <Eu1(H, 2) • Eu1(S, 2) =0 • Eu1(H, 2)=1 • Eu2(1, S ) =0 <Eu1(1, H)=1 • 令=(1, 2)是NE, • 如果i(si1) =0, i(si2)>0 那么一定有ui(si1, -i) ui(si2, -i) q NE2 1 NE1 1/2 NE3 p 1 1/2
定理:无差异性质 • 如果一个策略式博弈,每个参与者拥有有限数量的纯策略,那么,一个混合策略组合*构成一个纳什均衡,当且仅当 • 给定*-i ,混合策略*i中被赋予严格正概率的纯策略期望支付相等(或无差异)。 • 给定*-i ,混合策略*i中被赋予0概率的纯策略期望支付不高于被赋予正概率的纯策略期望支付.
通过无差异性质判断混合策略中哪些策略会被赋予正概率?通过无差异性质判断混合策略中哪些策略会被赋予正概率?
4. 监督博弈 员工可以选择努力工作或偷懒 工资:w元,但是一旦被发现偷懒,那么得到0。 努力的成本:c元 假设w>c 管理者可以选择监督或不监督 员工产出的价值: R元 如果员工偷懒,那么利润为 0 监督成本:m<w w-c , R-w-m w-c , R-w 0 , -m w , -w
如果 c<w, m<w,该监督博弈不存在纯策略NE 如果(1*,2*)是混合策略纳什均衡,而且 1*(努力)>0, 1*(S)>0, 2*(M)>0, 2*(N)>0, 那么,给定2* EU1(努力, 2*)= EU1(偷懒, 2*) EU1(努力, 2*)= q·(w-c )+(1-q)·(w-c) =w-c EU1(偷懒, 2*)= q·0 + (1-q)·w = (1-q)·w w-c=w-w·q q* = c/w 4 监督博弈
如果(1*,2*)是混合策略那是均衡,而且 1*(努力)>0, 1*(偷懒)>0, 2*(监督)>0, 2*(不监督)>0, 那么,给定1* EU2(1*, 监督)= EU2(1*,不监督) EU2(1*,监督)= p·(R-w-m)+(1-p)·(-m)= (R-w)p-m EU2(1*,不监督)= p·(R-w)+ (1-p)·(-w) = Rp-w (R-w)p-m=Rp-w p*=(w-m) /w 4. 监督博弈
NE: ( ((w-m) /w ,1-(w-m) /w ); (c/w ,1- c/w ) ) Prob(努力) =1- m/w Prob(监督) =c/w 如果 w=100;c=50; R=200; m=10 那么 Prob(努力) =0.9 Prob(监督) =0.5 4. 监督博弈
员工的期望支付 EU1(1, 2)= p[q·(w-c )+(1-q)·(w-c)] + (1-p) [q·0 + (1-q)·w] EU1(1, 2)p = wq - c 员工的边际收益: wq 员工的边际成本: c 4. 监督博弈
员工的期望支付 EU1(1, 2)= p[q·(w-c )+(1-q)·(w-c)] + (1-p) [q·0 + (1-q)·w] EU1(1, 2)p = wq-c 员工的最优反应B1(q): 如果wq<c, q < c/w, 就偷懒(p=0) 如果wq>c, q > c/w ,就努力 (p=1) 如果wq=c, q =c/w , 偷懒与努力无差异 (0p1) 4. 监督博弈
管理者的期望支付 EU2(1, 2)= q· [p·(R-w-m)+(1-p)·(-m)] +(1-q)·[p·(R-w)+ (1-p)·(-w)] = q[p·(R-w)-m]+(1-q) [p·R-w]=R+wq-mq-wpq EU2(1, 2) q= w-m-wp = (1-p)·w -m 管理者的最优反应B2(p): 如果p <1-m/w,就监督(q=1) 如果p >1-m/w ,就不监督(q=0) 如果p = 1-m/w ,监督与不监督无差异 (0q1) 4. 监督博弈
员工的最优反应B1(q): EU1(1, 2)p = wq-c 如果q < c/w,就偷懒(p=0) 如果q > c/w ,就努力 (p=1) 如果q =c/w , 偷懒与努力无差异 (0p1) 管理者的最优反应B2(p): EU2(1, 2)q= w-m-wp 如果p <1-m/w,就监督(q=1) 如果p >1-m/w ,就不监督(q=0) 如果p = 1-m/w ,监督与不监督无差异 (0q1) NE: ( (1-m/w, m/w); (c/w ,1- c/w ) ) Prob(努力) =1- m/w; Prob(监督) =c/w cpqp (c q=(1/w)c EU1(1, 2)p不变) p 1 q 1 c/w 4. 监督博弈 (w-m) /w
4. 监督博弈 • 其他版本 • 福利救济博弈 • 审计博弈
5. 报警博弈 • 参与者: n 个居民 • 行动集: {报警, 不报警} • 偏好: • 如果没有一个人报警,那么得到 0; • 如果自己报警,那么得到 v-c • 如果自己没报警,但其他人中至少有一人报警,那么得到 v。
5. 报警博弈 • 纯策略纳什均衡 • NE: (参与者 i 报警, 其他人都不报警) i=1,2,…n • 混合策略 • Prob (报警)= p • 问题:当组织规模扩大(n增加)时, • 每个人报价的概率p(n) 会发生什么变化? • 没有一个人报警的概率q(n)会发生什么变化?
5. 报警博弈 • 混合策略纳什均衡 • Prob (报警)= p • 给定别人的 报警概率,每个人都有 Eu(报警)=Eu(不报警) • Eu(报警)=v-c • Eu(不报警)= 0·Pr{其他人都没报警} + v·Pr {其他人至少有一人报警} • v-c= v·(1-Pr{其他人都没报警}) • c/v= Pr{其他人都没报警} • c/v = (1-p)n-1 • p =1- (c/v) 1/(n-1)
5. 报警博弈 • 混合策略纳什均衡 • 给定别人的 报警概率,每个人都有 Eu(报警)=Eu(不报警) • c/v= Pr{其他人都没报警} • c/v = (1-p)n-1 • p =1- (c/v) 1/(n-1) • p/n =[1/(n-1) 2] ln(c/v) (c/v) 1/(n-1) < 0 [v>c lnc/v <0] • qPr{没人报警} = Pr{ 参与者i没报警}·Pr{其他人都没报警} = (1-p) (c/v) • q/n =-(c/v) p/n > 0
小结 • 混合策略的理解 • 含不确定行动的博弈策略 • 演进中持有不同策略类型的参与者的比例 • 多次独立的相同博弈中持有的策略特征 • 核心性质:无差异性质 • 参与者所选择的策略使其他参与者的部分纯策略之间无差异。
6. Approaching Cars • 两辆车在十字路口交叉行驶 • 两个司机同时决定是停车,还是继续开 • 如果两辆车都不停车,就发生碰撞事故 • 每个司机都不希望出事故 • 都希望对方停车,自己不停车 1 , 1 1- , 2 2,1- 0 , 0
0<<1 如果(1*,2*)是混合策略纳什均衡,而且 11*>0, 12*>0, 21*>0, 22*>0, 那么,给定2* EU1(停车, 2*)= EU1(继续开, 2*) EU1(停车, 2*)= q+(1-q)·(1-) EU1(继续开, 2*)=2q q* =(1-) / (2-) 6. Approaching Cars
q* =(1-) / (2-) p* =(1-) / (2-) EU1(1*, 2*)=2 q* =2(1-) / (2-) EU2(1*, 2*)=2 p* =2(1-) / (2-) EU1 / = -2/(2-)2 <0 6. Approaching Cars
心理成本:>0 q* =(1-+ ) / (2-) p* =(1- +) / (2-) EU1(1*, 2*)=2 q* =2(1-+ ) / (2-) EU2(1*, 2*)=2 p* =2(1-+ ) / (2-) EU1 / = 2/(2-)>0 6. Approaching Cars
消耗战(Rasmueson, P76) • 纯策略纳什均衡 • 混合策略纳什均衡 • 租金耗散
演化均稳定均衡 • 演化过程 • 行为模式的继承与变异 • 大多数下一代会继承上一代的行为模式 • 但是存在一个的变异的概率: ε • 或者说一个社会中可能会有外来冲击,试图改变原来的传统 • (演化)选择 • 哪种行为模式下适应性强(收益越高),就具有更强的繁衍能力,有更多的后代,从而使持有该行为模式成员人数增加。