第六讲混合策略

第六讲混合策略 上海财经大学经济学院

混合策略 • 1. 混合策略 • 2. 期望支付函数 • 3. 混合策略纳什均衡 • 4. 应用 • 监督博弈 • 报警博弈 • Approaching Cars

1. 混合策略 • 例：猜硬币博弈 • 混合策略（随机策略） • 参与者1： • 以p的概率选择正面, 以1-p的概率选择反面 • 概率分布：1=(Prob(s1=正面), Prob(s1=反面)=(p, 1-p) • 参与者2： • 以q的概率选择正面, 以1-q的概率选择反面 • 概率分布：2=(Prob(s2=正面), Prob(s2=反面)=(q, 1-q)

1. 混合策略 • 定义： • 参与者的混合策略是定义在参与者纯策略集上的一个概率分布，设定了选择每个纯策略的概率。 • Si＝{si1, si2 , …, sik} • i=(Prob(si1), …., Prob(sik)) • 参与者i的混合策略集： Si • 混合策略组合： =(1, 2,…, n)

1.混合策略 参与者 1: 纯策略集：{T, M, B } 混合策略：1= (p1, p2,1-p1-p2) 1(T)= p1, 1(M)= p2 , 1(B)= 1-p1-p2. 参与者 2: 2=(q1, q2,1-q1-q2)

2. 期望支付函数 给定2的混合策略2， Eu1(正,2)=qu1(正,正)+ (1-q)u1(正,反) =q·(-1)+(1-q)·1=1-2q Eu1(反,2) =qu1(反,正)+(1-q)u1(反,反) =q·1+(1-q)·(-1)=2q-1

2. 期望支付函数 给定2的混合策略2 Eu1(正,2)=1-2q Eu1(反,2) =2q-1 给定2的混合策略2，参与者 1 选择1的期望支付 Eu1(1, 2) = p·Eu1(正, 2)+ (1-p) · Eu1(反, 2 ) = p·(1-2q)+(1-p) · (2q-1) = 2p-4pq-1

2. 期望支付函数 给定策略组合(1, 2) = ((p, 1-p), ( q, 1-q)) 参与者 1 的期望支付 Eu1(1, 2) = pEu1(正, 2)+(1- p) pEu1(反, 2) = 2p-4pq-1 参与者 2 的期望支付函数 Eu2(1, 2) = qEu2(1,正) + (1-q)Eu2(1,反) = q·[p-(1-p)]+(1-q)·[-p+1-p] =1-2q+4pq

2. 期望支付函数 混合策略: 1=( p1, p2, p3 ); 2=(q1, q2, q3 ) 参与者1的期望支付: EU1(1, 2) =1(T)EU1(T, 2)+1(M) EU1(M, 2)+1(B) EU1(B, 2) = p1[q1·0 + q2·3 + q3·1] + p2[q1 ·4 +q2 ·0+q3 ·2] + p3[q1·3 + q2·5 + q3·0]

2. 期望支付函数 EU1(1, 2) =1(T) EU1(T, 2) + 1(M) EU1(M, 2) + 1(B) EU1(B, 2)

3. 策略式博弈（含混合策略） • 定义: ( vNM 偏好策略式博弈) 一个vNM 策略式博弈由以下几部分构成： • 参与者集合 • 每个参与者的纯策略集 • 每个参与者对所有混合策略组合的偏好关系，以及表示该好关系的期望支付函数。

3. 混合策略均衡 定义: 一个混合策略组合* 是一个（混合策略）纳什均衡，如果对所有的参与者 i 都有： EUi(*i, *-i)  EUi(i, *-i)  i Si. 纯策略NE：策略式博弈中，策略组合s∗ 是一个纳什均衡，如果对每一个参与者i都有 ui(s∗) ≥ ui (si, s∗−i) siSi

3. 混合策略均衡 • 混合策略组合* 是纳什均衡当且仅当对所有的参与者都有*i Bi(*-i) • 如果每个参与者都有最优反应函数 bi(-i)，那么混合策略组合* 是纳什均衡的充分必要条件是： • *i= bi (*-i) i=1,2,…,N

3. 混合策略均衡：例1 参与者 1 的最优反应函数B1(q): Max p[0,1] Eu1(p, q) = = 2p-4pq-1 Eu1=2-4q 如果q<0.5, p＝1 如果 q>0.5, p＝0 如果q=0.5, p[0,1] q 1 1/2 p 1 1/2 B1(q)

3. 混合策略均衡：例1 参与者 2 的最优反应函数B2(p): Max q[0,1] Eu2(p, q) = =1-2q+4pq Eu2=4 p-2 如果 p<0.5, q＝0 如果 p>0.5, q＝1 如果 p=0.5, q[0,1] NE： ((0.5,0.5)((0.5, 0.5)) p = 0.5  B1(0.5) q = 0.5 B2(0.5) q 1 1/2 p 1 1/2 混合策略NE B2(p) B1(q)

(2, 2) (0, 1) (1, 0) (1, 1) 例2：狩猎博弈 • 给定 1=(p,1-p) 和2=(q,1-q) • 参与者 1 • EU1(1, 2)= pq·2 +p(1-q)·0 + (1-p)q·1 + (1-p)(1-q)·1 =2 pq-p-q+1 EU1/ p= 2q-1 • 最优反应函数 • 如果q>0.5, p=1; • 如果 q<0.5, p=0; • 如果 q=0.5, p[0.1]. 猎人 2 野猪 (q) 野兔(1-q) 野猪(p) 猎人 1 野兔(1-p)

例2：狩猎博弈 • 给定 1=(p,1-p) 和 2=(q,1-q) • 参与者1 的最优反应 • 类似的，参与者 2 的最优反应 • 所以，存在三个混合策略纳什均衡 • NE1: ((0.5, 0.5),(0.5, 0.5)) • NE2: ((1,0),(1,0)); NE3: ((0,1),(0,1)); q NE2 1 NE1 1/2 NE3 p 1 1/2

混合策略纳什均衡性质 • 狩猎博弈存在三个混合策略纳什均衡 • NE1: ((0.5, 0.5),(0.5, 0.5)) • 1(S) =1(H)=0.5>0； 2(S) =2(H)=0.5>0； • Eu1(S, 2) =Eu1(H, 2) • Eu1(S, 2)=0.5·2+0.5·0=1 • Eu1(H, 2)=0.5·1+0.5·1=1 • Eu2(1, S) =Eu1(1, H) • 令=(1, 2)是NE， • 如果i(si1) >0, i(si2)>0 那么一定有ui(si1, -i)= ui(si2, -i) q NE2 1 NE1 1/2 NE3 p 1 1/2

混合策略纳什均衡性质 • 狩猎博弈存在三个混合策略纳什均衡 • NE2: ((0, 1), (0, 1)) • 1(S) =0, 1(H)=1； 2(S) =0, 2(H)=1; • Eu1(S, 2) <Eu1(H, 2) • Eu1(S, 2) =0 • Eu1(H, 2)=1 • Eu2(1, S ) =0 <Eu1(1, H)=1 • 令=(1, 2)是NE， • 如果i(si1) =0, i(si2)>0 那么一定有ui(si1, -i)  ui(si2, -i) q NE2 1 NE1 1/2 NE3 p 1 1/2

定理：无差异性质 • 如果一个策略式博弈，每个参与者拥有有限数量的纯策略，那么，一个混合策略组合*构成一个纳什均衡，当且仅当 • 给定*-i ,混合策略*i中被赋予严格正概率的纯策略期望支付相等（或无差异）。 • 给定*-i ,混合策略*i中被赋予0概率的纯策略期望支付不高于被赋予正概率的纯策略期望支付.

通过无差异性质判断混合策略中哪些策略会被赋予正概率？通过无差异性质判断混合策略中哪些策略会被赋予正概率？

4. 监督博弈 员工可以选择努力工作或偷懒工资：w元，但是一旦被发现偷懒，那么得到0。努力的成本：c元假设w>c 管理者可以选择监督或不监督员工产出的价值: R元如果员工偷懒，那么利润为 0 监督成本：m<w w-c , R-w-m w-c , R-w 0 , -m w , -w

如果 c<w, m<w，该监督博弈不存在纯策略NE 如果(1*,2*)是混合策略纳什均衡，而且 1*(努力)>0, 1*(S)>0, 2*(M)>0, 2*(N)>0, 那么，给定2* EU1(努力, 2*)= EU1(偷懒, 2*) EU1(努力, 2*)= q·(w-c )+(1-q)·(w-c) ＝w-c EU1(偷懒, 2*)= q·0 + (1-q)·w = (1-q)·w  w-c=w-w·q  q* = c/w 4 监督博弈

如果(1*,2*)是混合策略那是均衡，而且 1*(努力)>0, 1*(偷懒)>0, 2*(监督)>0, 2*(不监督)>0, 那么，给定1* EU2(1*, 监督)= EU2(1*,不监督) EU2(1*,监督)= p·(R-w-m)+(1-p)·(-m)= (R-w)p-m EU2(1*,不监督)= p·(R-w)+ (1-p)·(-w) = Rp-w  (R-w)p-m=Rp-w  p*=(w-m) /w 4. 监督博弈

NE: ( ((w-m) /w ,1-(w-m) /w ); (c/w ,1- c/w ) ) Prob(努力) =1- m/w Prob(监督) =c/w 如果 w=100；c=50; R=200; m=10 那么 Prob(努力) =0.9 Prob(监督) =0.5 4. 监督博弈

员工的期望支付 EU1(1, 2)= p[q·(w-c )+(1-q)·(w-c)] + (1-p) [q·0 + (1-q)·w] EU1(1, 2)p = wq - c 员工的边际收益： wq 员工的边际成本： c 4. 监督博弈

员工的期望支付 EU1(1, 2)= p[q·(w-c )+(1-q)·(w-c)] + (1-p) [q·0 + (1-q)·w] EU1(1, 2)p = wq-c 员工的最优反应B1(q): 如果wq<c, q < c/w，就偷懒(p=0) 如果wq>c, q > c/w ，就努力 (p=1) 如果wq=c, q =c/w ，偷懒与努力无差异 (0p1) 4. 监督博弈

管理者的期望支付 EU2(1, 2)= q· [p·(R-w-m)+(1-p)·(-m)] +(1-q)·[p·(R-w)+ (1-p)·(-w)] = q[p·(R-w)-m]+(1-q) [p·R-w]=R+wq-mq-wpq EU2(1, 2) q= w-m-wp = (1-p)·w -m 管理者的最优反应B2(p): 如果p <1-m/w，就监督(q=1) 如果p >1-m/w ，就不监督(q=0) 如果p = 1-m/w ，监督与不监督无差异 (0q1) 4. 监督博弈

员工的最优反应B1(q): EU1(1, 2)p = wq-c 如果q < c/w，就偷懒(p=0) 如果q > c/w ，就努力 (p=1) 如果q =c/w ，偷懒与努力无差异 (0p1) 管理者的最优反应B2(p): EU2(1, 2)q= w-m-wp 如果p <1-m/w，就监督(q=1) 如果p >1-m/w ，就不监督(q=0) 如果p = 1-m/w ，监督与不监督无差异 (0q1) NE: ( (1-m/w, m/w); (c/w ,1- c/w ) ) Prob(努力) =1- m/w； Prob(监督) =c/w cpqp (c q=(1/w)c EU1(1, 2)p不变) p 1 q 1 c/w 4. 监督博弈 (w-m) /w

4. 监督博弈 • 其他版本 • 福利救济博弈 • 审计博弈

5. 报警博弈 • 参与者: n 个居民 • 行动集： {报警, 不报警} • 偏好： • 如果没有一个人报警，那么得到 0； • 如果自己报警，那么得到 v-c • 如果自己没报警，但其他人中至少有一人报警，那么得到 v。

5. 报警博弈 • 纯策略纳什均衡 • NE： (参与者 i 报警，其他人都不报警) i=1,2,…n • 混合策略 • Prob (报警)= p • 问题：当组织规模扩大（n增加）时， • 每个人报价的概率p(n) 会发生什么变化？ • 没有一个人报警的概率q(n)会发生什么变化？

5. 报警博弈 • 混合策略纳什均衡 • Prob (报警)= p • 给定别人的报警概率,每个人都有 Eu(报警)=Eu(不报警) • Eu(报警)=v-c • Eu(不报警)= 0·Pr{其他人都没报警} + v·Pr {其他人至少有一人报警} • v-c= v·(1-Pr{其他人都没报警}) • c/v= Pr{其他人都没报警} • c/v = (1-p)n-1 • p =1- (c/v) 1/(n-1)

5. 报警博弈 • 混合策略纳什均衡 • 给定别人的报警概率,每个人都有 Eu(报警)=Eu(不报警) • c/v= Pr{其他人都没报警} • c/v = (1-p)n-1 • p =1- (c/v) 1/(n-1) • p/n =[1/(n-1) 2] ln(c/v) (c/v) 1/(n-1) < 0 [v>c lnc/v <0] • qPr{没人报警} = Pr{ 参与者i没报警}·Pr{其他人都没报警} = (1-p) (c/v) • q/n =-(c/v) p/n > 0

小结 • 混合策略的理解 • 含不确定行动的博弈策略 • 演进中持有不同策略类型的参与者的比例 • 多次独立的相同博弈中持有的策略特征 • 核心性质：无差异性质 • 参与者所选择的策略使其他参与者的部分纯策略之间无差异。

6. Approaching Cars • 两辆车在十字路口交叉行驶 • 两个司机同时决定是停车，还是继续开 • 如果两辆车都不停车，就发生碰撞事故 • 每个司机都不希望出事故 • 都希望对方停车，自己不停车 1 , 1 1- , 2 2,1- 0 , 0

0<<1 如果(1*,2*)是混合策略纳什均衡，而且 11*>0, 12*>0, 21*>0, 22*>0, 那么，给定2* EU1(停车, 2*)= EU1(继续开, 2*) EU1(停车, 2*)= q+(1-q)·(1-) EU1(继续开, 2*)=2q  q* =(1-) / (2-) 6. Approaching Cars

q* =(1-) / (2-) p* =(1-) / (2-) EU1(1*, 2*)=2 q* =2(1-) / (2-) EU2(1*, 2*)=2 p* =2(1-) / (2-)  EU1 / = -2/(2-)2 <0 6. Approaching Cars

心理成本：>0 q* =(1-+ ) / (2-) p* =(1- +) / (2-) EU1(1*, 2*)=2 q* =2(1-+ ) / (2-) EU2(1*, 2*)=2 p* =2(1-+ ) / (2-)  EU1 /  = 2/(2-)>0 6. Approaching Cars

消耗战（Rasmueson, P76) • 纯策略纳什均衡 • 混合策略纳什均衡 • 租金耗散

演化均稳定均衡 • 演化过程 • 行为模式的继承与变异 • 大多数下一代会继承上一代的行为模式 • 但是存在一个的变异的概率： ε • 或者说一个社会中可能会有外来冲击，试图改变原来的传统 • （演化）选择 • 哪种行为模式下适应性强（收益越高），就具有更强的繁衍能力，有更多的后代，从而使持有该行为模式成员人数增加。

第六讲 混合策略