270 likes | 364 Views
10.Private Strategies in Games with Imperfect Public Monitoring. 北木 真. アウトライン. Sequential Equilibrium A Reduced-Form Example Two-Period Examples An Infinitely Repeated Prisoners’ Dilemma. 公的戦略と私的戦略. 行動: E ( Effort ), S ( Shirk ) { y,y } :公的シグナル Public strategies : σ , σ
E N D
10.Private Strategies in Games with Imperfect Public Monitoring 北木 真
アウトライン • Sequential Equilibrium • A Reduced-Form Example • Two-Period Examples • An Infinitely Repeated Prisoners’ Dilemma
公的戦略と私的戦略 • 行動:E(Effort),S(Shirk) • {y,y}:公的シグナル • Public strategies:σ,σ • 公的シグナルによってのみ定まる • Private strategies:σ • シグナルyに続く2期の行動は,1期の行動に依存 - - ~ ^ -
Sequential Equilibrium • 定義 • 任意の行動aに対するシグナルyの観測確率ρ(y|a)は正であると仮定 • 任意の自分の履歴 に対して, が に対して最適反応 ⇒戦略プロファイルσはsequential equilibrium (但し, )
アウトライン • Sequential Equilibrium • A Reduced-Form Example • Two-Period Examples • An Infinitely Repeated Prisoners’ Dilemma
A Reduced-Form Example • 1期目は左,2期目は右のゲームを行う • シグナルyの観測確率ρ • a:行動,y,y:シグナル • p=9/10,q=4/5,r=1/5と仮定 • 2回のゲームにおける利得:(1-δ)u1+δu2 • δ=25/27と仮定 - - -
各戦略の期待利得 • Pure Strategies • 1期はEE,2期ではyのときはRR,それ以外はPP • 左辺の式より期待利得は1.4815 • Public Correlation • 1期はE,次はyの観測後はR,yの観測後は確率ΦでRを選択 • Φ=0.5かつ期待利得は1.5556 - - -
各戦略の期待利得 • Mixed Public Strategies • 1期は確率αでE,2期はyの観測後はR,yの観測後は確率ΦでRを選択 • より,期待利得は1.5566(α=0.969, Φ=0.567) - -
各戦略の期待利得 • Private Strategies • 1期は確率αでEを選択 • 2期は1期でSが選ばれ,yを観測した後は確率ξでRを選択,それ以外の場合は必ずRを選択 • より,期待利得は1.5864(α=0.916,ξ=0) -
アウトライン • Sequential Equilibrium • A Reduced-Form Example • Two-Period Examples • An Infinitely Repeated Prisoners’ Dilemma
Two-Period Examples • ただ一つのナッシュ均衡を持つゲーム • 右のナッシュ均衡 • プレイヤ1:r1かr2を等確率 • プレイヤ2:c1かc2を等確率 • 公的シグナルY={y,y}のうち, yが観測される確率ρ(y|r c ): - - - - j i
PPEと重複しない均衡 • 1期の各プレイヤーの行動: • 2期のプレイヤ1の行動: • 2期のプレイヤ2の行動:
PPEと重複しない均衡 • 何故,1期でプレイヤ1はr3を選択? • r2を選択すると,2期でプレイヤ2は確率0.1でc1,0.9でc2を選択 • プレイヤ1の期待利得は,r3の選択より減少 • 均衡戦略がpublic • 1期の行動は2期の行動に影響を与えないため,最適反応から外れた戦略を取る誘因が発生しない⇒PPE • 一方,プレイヤ2のprivate strategyは2期のゲームにおいてcorrelated equilibriumを構成 • 2期においてナッシュ均衡を構成する必要はない
Correlationによる利得 • 右のゲームにおける均衡 • Nash:(1,1) • Correlation:(3/2,3/2) • 各シグナルy1,y2,y3の観測確率:
Correlationによる利得 • 1期は3つの行動を等確率で1つ選択 • 各プレイヤの2期の行動: • r4=r1,c4=c1,r0=r3,c0=c3とする • 2期の戦略はcorrelated equilibirumを構成
複数のナッシュ均衡があるゲーム • プレイヤ1は縦,2は横,3は左か右の表から行動を選択 • プレイヤ3にとってRはLを支配 • ナッシュ均衡 • LRRかRLRを選択:利得(1,1,12) • プレイヤー1と2が1/3でLを選択:利得(1/3,1/3,74/9)
さらに大きな利得を得る • シグナルY={y0,y1,y2,y3}を考える • l:1期でLを選択したプレイヤの人数 • ylの観測確率は1-3ε(ym(m≠l)の観測確率はε) • 各プレイヤの1期の行動: • 1期では比較的LLLが選択される
さらに大きな利得を得る • 各プレイヤの2期の行動 • εが十分に小さければ,2期はほぼナッシュ均衡となる
さらに大きな利得を得る • プレイヤ1と2の 2期の期待利得: • プレイヤ3の2期の期待利得 • 1期でLを選択:高確率でy3が観測され,利得は12 • Rを選択:高確率でy2が観測され,利得は0 • ε→0のとき,利得は(6,6,26.22)に近づく • ナッシュ均衡による利得より大きい
アウトライン • Sequential Equilibrium • A Reduced-Form Example • Two-Period Examples • An Infinitely Repeated Prisoners’ Dilemma
Public Transitions • 右の囚人のジレンマを 無限回繰り返す • 2つの公的シグナルy,yの うち,yの観測確率ρ: • ここではp>0,q=0と仮定 • 戦略のオートマトン表現 • wR:確率αでEを選択 • wP:Sを選択 • 各プレイヤは常に 同じ状態 - - -
Public Transitions • wRにおける期待利得V(wR) • Eを選択した場合: • Sを選択した場合: • wPにおける期待利得は0 • wRにおける行動が無差別⇒ • このとき, • 各プレイヤが辛抱強い(δが1に近い)とき,αは1に近づき,V(wR)は2に近づく • この場合,PPEによって達成可能な利得2-(1-p)/pより大きい
q>0のとき • q=0のときと同じ戦略は均衡ではない • プレイヤ1の履歴Ey,(Ey)kを考える • Ey観測後,プレイヤ2が 状態wRである確率β0(q) • β0(0)=1 • 同様にして次の確率βk(q) を考える: • k→∞のとき,βk(q)は0に近づく • プレイヤ1はプレイヤ2がほぼ確実にwPの状態であると考え,Eの選択をやめる - - -
Belief-free Equilibrium • 右の囚人のジレンマにおける Belief-free equilibrium (14章で述べられる)を示す • 2つの公的シグナルy,yのうち, yの観測確率ρ: - - -
Belief-free Equilibrium • 戦略のオートマトン表現 • wR:確率αRでE を選択 • WP:Sを選択 • Vxi(ai):プレイヤjの状態がwxで,プレイヤiがai選択をした場合のプレイヤiの利得 • VRi(E)=Vri(S)≡VR,VPi(E)=Vpi(S)≡VP
Belief-free Equilibrium • VRについて: • VPについて: • これらの等式を解くことにより,確率βが求められる
Belief-free Equilibrium • βによって,次の等式が導かれる • δ=1,αR=1は等式を満たす • p=1/2,q=1/2-ε,r=ε,bは2に近い場合を考える • このとき,1に近いδ<1について,1に近いαR<1が存在し,それは上の等式を満たす