第十一讲不完美信息动态博弈

第十一讲不完美信息动态博弈 上海财经大学经济学院

例：进入博弈 潜在进入者 d1 进入不进入 d2 在位者 e1 2 10 容纳反击 e2 e3 4 3 -1 1 2

例：进入博弈 进入企业不进入有准备无准备 d2.1 d2.2 在位企业 2 10 反击(F) 容纳(A) 容纳(A) 反击(F) 4 3 0 0 3 3 -1 1 • 不完美信息情形 • 后行动者不能观察到先行动者的行动 3

自然低成本(L) 高成本(H) 例：进入博弈 • 不完全信息 • 在位者可能是高成本厂商或低成本厂商, • 进入者不知道在位者的类型. • 海萨伊转换 • 企业1的信息集 • I1={d1.1, d1.2} • 企业2的信息集 • I21={d2.1, d2.2}=t2L • I22={d2.3, d2.4}=t2H d1.1 1:进入者 d1.2 进入(E) 退出(N) 退出(N) 进入(E) d2.1 2:在位者 d2.2 2 15 2 10 A F A F 3 4 -15 4 3 -11

进入企业 不进入有准备无准备 d2.1 d2.2 在位企业 2 10 反击(F) 容纳(A) 容纳(A) 反击(F) 4 3 0 0 3 3 -1 1 例：进入博弈：不完美信息 • 策略式表示 • s1 {有准备，无准备，不进入} • s2{A ,F} • 纳什均衡: (无准备, A)、 (不进入, F) • 都是子博弈完美均衡 • SPE无法剔除NE2 • 如何进行逆向推理？容纳反击有准备无准备不进入

进入企业 不进入有准备无准备 d2.1 d2.2 在位企业 2 10 反击(F) 容纳(A) 容纳(A) 反击(F) 4 3 0 0 3 3 -1 1 PBE • 要求1：信念 • 参与者在自己行动的每一个信息集中对博弈进行到哪一个结点都持有一个判断（信念）。 • 多个结点：概率分布 • 单个结点信息集：在该结点的概率为1 • 例： 2= (p,1-p) [p] [1-p] 6

进入企业 不进入有准备无准备 d2.1 d2.2 在位企业 2 10 反击(F) 容纳(A) 容纳(A) 反击(F) 4 3 0 0 3 3 -1 1 PBE • 要求2：序贯理性 • 给定参与者的信念和其他参与者的后续策略选择，每个参与者在自己信息集上的选择都是最优反应。 • 例：  =(1, 2)=(p,1-p) • EU2(A )=3 > EU2(F )=0·p +(1- p)=1-p [p] [1-p]

进入企业 有准备不进入无准备 [p] 在位企业 [1-p] 2 10 F A A F 4 3 0 0 3 3 -1 1 PBE • 合理信念的形成 • 根据先行动者的策略形成自己的信念 • 例 • 如果企业1的策略是确定的选择“有准备进入”， • 那么企业2就可以形成一个信念： p=1

进入企业 有准备(q1) 不进入(q3) 无准备(q2) [p] 在位企业 [1-p] 2 10 A F A F 4 3 0 0 3 3 -1 1 PBE • 行为策略 • 一个扩展式博弈中参与人 i的一个行为策略i是一个函数赋予参与人i的每个信息集Ii对A(Ii)中行动的概率分布, 具有每个概率分布相互独立。 • 例 • 1=(q1, q2,1- q1- q2) • 2=(h, 1-h) (h) (1-h) (1-h) (h)

自然低成本(L) 高成本(H) 例：进入博弈:不完全信息情形 • 企业1的信息集 • I1={d1.1, d1.2} • 1=(q,1-q) • 企业2的信息集 • I21={d2.1, d2.2}=t2L • I22={d2.3, d2.4}=t2H • 2=(11 , 12)= ((h1, 1-h1), (h2, 1-h2)) d1.1 d1.2 1:进入者进入(E) 退出(N) 退出(N) 进入(E) d2.1 2:在位者 d2.2 2 15 2 10 A F A F 3 4 -15 4 3 -11

自然低成本() 高成本(1- ) PBE • 合理信念的形成 •  1= (p,1-p) =(, 1-) d1.1 d1.2 [1-p] [p] 1:进入者进入(E) 退出(N) 退出(N) 进入(E) d2.1 2:在位者 d2.2 2 15 2 10 A F A F 3 4 -15 4 3 -11

进入企业 有准备(q1) 不进入(q3) 无准备(q2) [p] 在位企业 [1-p] 2 10 F A A F 4 3 0 0 3 3 -1 1 PBE • 信念的形成 • 给定1=(q1, q2,1- q1- q2) • 如果q1+q2>0，那么 • p=Prob(d 2.11)= q1/[q1+q2] • 如果q1+q2=0，那么 • ???? d2.1 d2.1

进入企业 有准备(q1) 不进入(q3) 无准备(q2) [p] 在位企业 [1-p] 2 10 F A A F 4 3 0 0 3 3 -1 1 PBE • 定义：均衡路径 • 给定一个扩展式博弈均衡，当参与者按均衡策略行动时会以正的概率到达某个信息集，称该信息集处于均衡路径上。如果博弈按均衡策略进行时肯定不会达到的信息，称之为在均衡路径之外。 • NE1: 1 =(0, 1, 0) , 2 =(1,0) • NE2:1 =(0, 0, 1), 2 =(0,1)

PBE • 要求3：均衡路径上的信念(一致性) • 如果一个信息集处于均衡路径上，那么该信息集上的信念根据参与者策略由贝叶斯法则决定。 • 要求4：非均衡路径上的信念 • 如果一个信息集处于非均衡路径上，那么该信息集上的信念根据贝叶斯法则和可能的参与者策略决定。 • 存在一个可能的信念支撑均衡即可。

进入企业 有准备(q1) 不进入(q3) 无准备(q2) [p] 在位企业 [1-p] 2 10 F A A F 4 3 0 0 3 3 -1 1 PBE • 序贯理性 • 例：给定NE1: 1 =(0, 1, 0), 2 =(1,0) • (d2.1)=q1 /(q1+q2)=0 • (d2.2)=q2 /(q1+q2)=1 • 在该信念下2 =(1,0) 是企业2的最优反应，满足要求2,。即满足序贯理性。 d2.1 d2.1

进入企业 有准备(q1) 不进入(q3) 无准备(q2) [p] 在位企业 [1-p] 2 10 F A A F 4 3 0 0 3 3 -1 1 PBE • 序贯理性 • 例：给定纳什均衡： 1=(0，0, 1)，2=(0,1) • 企业2的信息集不在均衡路径上 • 因为：EU2(A )=3 > EU2(F ) p[0,1] • 所以，不存在一个信念 =(p,1-p)支撑2，即，不满足序贯理性。 d2.1 d2.1

进入企业 有准备(q1) 不进入(q1) 无准备(q1) [p] 在位企业 [1-p] 2 10 F A A F 4 3 0 0 3 3 -1 1 完美贝叶斯均衡（PBE） • 定义 • 称满足要求1-4的策略与信念组合(, )为完美贝叶斯均衡 • 例： • ((无准备进入,容纳),=(0,1))是PBE • NE2: (不进入，反击)不能构成一个PBE 17

进入企业 有准备(q1) 不进入(q1) 无准备(q1) [p] 在位企业 [1-p] 2 10 F A A F 4 3 0 0 3 3 -1 4 例：进入博弈：变型 • 找出该博弈的PBE？ • 令：1=(q1, q2,1- q1- q2)，2=(h, 1-h) 1. 如果(q1+q2)>0, 那么 p=q1/(q1+q2) (1) 满足q1+q2>0条件下不存在纯策略组合构成PBE。 (2)EU2(A2)=EU2(F2) • 3=4(1-p) • p=1/4 (3.1) EU1(有2 )= EU1(无2 ) • 3h=4h-(1-h) • h=1/2 18

例：进入博弈：变型 • 1. 如果(q1+q2)>0, 那么 p=q1/(q1+q2) (1) 满足q1+q2>0条件下不存在纯策略组合构成PBE。 (2) EU2(A2)=EU2(F2)p=1/4 (3.1) EU1(有2 )= EU1(无2 )h=1/2  EU1(有2 )=3/2 < EU1(不2 )= 2  企业1 的最优选择是： 1=(0, 0,1) 所以，当(q1+q2)>0不存在与条件一致的PBE。 19

例：进入博弈：变型 • 2. 如果(q1+q2)=0, 即1=(0, 0,1)，那么 p[0,1] • (1) 如果1是企业1的均衡策略，那么一定有： • EU1(有2 )=3h  2; • h  2/3 • EU1(无2 )=4h - (1-h)  2; • h  3/5 • 因为h>1/2时， EU1(无2 ) > EU1(有2 ) • 所以，当2满足h  3/5时， 1=(0, 0,1)就是企业1的最优策略。 20

例：进入博弈：变型 • (1)当2满足h  3/5时， 1=(0, 0,1)就是企业1的最优策略 • (2) 给定1=(0, 0,1)， p[0,1] • 当p < ¼ 时，EU2(F2)>EU2(A2) • h=0 ——满足(1) • 当p = ¼ 时，EU2(F2)=EU2(A2) • h[0, 1] ——取h[0, 3/5],即满足(1) • 当p > ¼ 时，EU2(F2)<EU2(A2) • h=1 ——不满足(1) • 所以，存在以下PBE： • (*1=(0, 0, 1)，*2=(0, 1),=(p,1-p))是PBE,其中p<1/4 ； • (*1=(0, 0, 1)，*2=(h, 1-h),=(p,1-p))是PBE,其中h=3/5,p=1/4 。

例：扑克博弈 • 博弈开始，两个参与人各将一美元放在盘中 • 参与人 1 被发到一张牌，可能是大牌，也可是小牌，他能看卡片, 参与人2不能看到牌的大小。 • 参与人1 看到牌后可以选择摊牌(See)或加钱(Raise) • 如果他选择摊牌, 他将牌展示给参与人 2 • 如果大牌, 参与人1赢得盘中的钱, 否则, 参与人2赢。这两种情形下，博弈都到此结束 • 如果他选择加钱, 他往盘中加1美元，参与人 2 选择Pass或Meet • 如果参与人2选择放弃, 参与人1赢得盘中的钱 • 如果参与人2选择Meet,他往盘中加1美元, 参与人1摊牌，如果是大牌, 参与人1赢；否则, 参与人2赢。 22

自然 High(0.5) Low(0.5) d1.2 See 1 -1 See -1 1 Raise Raise d2.2 d2.1 Pass Meet Pass Meet -2 2 1 -1 2 -2 1 -1 例：扑克博弈

自然 High(0.5) Low(0.5) d1.2 See 1 -1 See -1 1 Raise Raise d2.2 d2.1 Pass Meet Pass Meet -2 2 1 -1 2 -2 1 -1 例：扑克博弈 • I11={d11}, I12={d12}, I2={d21,d22} • 1=(11 , 12)=((h1, 1-h1), (h2, 1-h2)); • 2=(q,1-q) d1.1 • (1) 在信息集I11上，Raise是参与者1的占优策略，所以11 =(0，1) • (2)在信息集I12和I2上任何纯策略不构成均衡策略 24

自然 High(0.5) Low(0.5) d1.2 See 1 -1 See -1 1 Raise Raise d2.2 d2.1 Pass Meet Pass Meet -2 2 1 -1 2 -2 1 -1 例：扑克博弈 • 假设1=((0, 1), (h2, 1-h2)); 2=(q,1-q) 是均衡策略，那么 • (3) 给定2，有EU1(R,2)= EU1(S,2) • EU1(R,2)=q-2(1-q) • EU1(S,2)= -1 • q=1/3 d1.1 [p] [1-p] 25

例：扑克博弈 假设1=((0, 1), (h2, 1-h2)); 2=(q,1-q) 是均衡策略，那么自然 High(0.5) Low(0.5) d1.2 See 1 -1 See -1 1 d1.1 Raise Raise d2.2 d2.1 Pass Meet [p] [1-p] Pass Meet -2 2 1 -1 2 -2 1 -1 • (3) q=1/3 • (4)给定信念=(p,1-p)，有EU2(P,)= EU1(M, ) • EU2(P,)=-1 • EU1(M, )= -2p+2(1-p) • p=3/4 26

例：扑克博弈 给定1=((0, 1), (h2, 1-h2)); 2=(1/3, 2/3)， p=3/4 (5)到达信息集I2的概率为： 0.5(1-h1)+0.5(1-h2)]=0.5+0.5(1-h2) 贝叶斯法则 p=0.5/[0.5+0.5(1-h2)] 3/4=1/(2-h2) h2=2/3 自然 High(0.5) Low(0.5) d1.2 See 1 -1 See -1 1 Raise Raise d2.2 d2.1 Pass Meet Pass Meet -2 2 1 -1 2 -2 1 -1 d1.1 [1-p] [p] 27

自然 High(0.5) Low(0.5) d1.2 See 1 -1 See -1 1 Raise Raise d2.2 d2.1 Pass Meet Pass Meet 1 -1 2 -2 1 -1 -2 2 例：扑克博弈 • 所以，1=((0, 1), (1/2, 1/2)); 2=(1/3,2/3)， =(2/3,1/3) 构成一个PBE。 d1.1 [p] [1-p] 28

1 C 1,1,1 3 L R L R 001 440 0 0 0 3 3 2 例： SeltonHorse • SeltonHorse • 1=(p,1-p), • 2=(q,1-q), • 3=(h,1-h) 2 c d D [] [1-] • 给定参与人1和2的策略, 一致性要求 3 =(,1- ), 其中 •  = p/ [p+(1-p)q] 当p+(1-p)q >0 • [0,1] 当p+(1-p)q =0 29

1 C 1 1 1 3 L R L R 001 440 0 0 0 3 3 2 例： SeltonHorse • 给定策略组合 =(1 ,2 ,3) 和他的信念3, 参与人 3的期望支付是 • EU3( 3)= (2h)+(1-)(1-h) = (3-1) h +1- • 3的最优反应3(1,2) 2 c d D [] [1-] 30

1 C 1 1 1 3 L R L R 001 440 0 0 0 3 3 2 例： SeltonHorse • 给定策略组合(1,2) 和3(1,2),参与人2的期望支付是： • EU2(1,2,3(1,2))= q(4h)+ (1- q) • 参与人2的最优反应2(1,3) 2 c d D [] [1-] 31

1 C 1 1 1 3 L R L R 001 440 0 0 0 3 3 2 例： SeltonHorse • 给定策略组合(1) 以及参与人2 和 3的最优反应, 参与人 1的期望支付是 • EU1(1,2(1,3),3(1,2))= p(3h)+ (1- p)[4qh+1(1-q)] = (3h - 4qh+q-1)p+ [4qh+1(1-q)] 2 c d D • 参与人1的最优选择是： [] [1-] 32

情形 1: • h >1/4 给定信念 = p/ [p+(1-p)q] 1/3 • q = 1 •  3h - 4qh+q-1= - h < 0 •  p = 0 ，这与   1/3不一致 • 任何h >1/4的策略组合都不会是 PBE的一部分 33

情形 2: h <1/4 给定信念 = p/ [p+(1-p)q] 1/3 •  q = 0 •  3h - 4qh+q-1= 3h -1 < 0 •  p = 0 •   [0,1], 任何   1/3的信念是一致的 • 如果<1/3则 h=0; • 具有信念 3 =(,1- )的策略组合 ((0,1), (0,1),(0,1)) 当 <1/3 时是 PBE 34

情形 2: h <1/4 给定信念 = p/ [p+(1-p)q] 1/3 •  q = 0 •  3h - 4qh+q-1= 3h -1 < 0 •  p = 0 •   [0,1], 这样任何满足   1/3 的信念都是一致的 • 如果 =1/3那么h[0,1]; • 策略组合 ((0,1), (0,1),(h,1-h)) 和 3 =(1/3,2/3), 当 h<1/4 时是一个PBE 35

情形 3: h=1/4 给定信念 = p/ [p+(1-p)q] =1/3 •  q [0, 1] •  3/4 - q+q+1= 7/4>0 • 那么 p = 1 与 =1/3不一致 • 任何h=1/4的策略组合不是一个PBE 36

小结：不完美信息博弈与PBE • 行为策略 = (1,2 ,…, n ) • 一个扩展式博弈中参与人 i的一个行为策略i是一个函数赋予参与人i的每个信息集Ii对A(Ii)中行动的概率分布, 具有每个概率分布相互独立。 • 一致信念 • 参与者在自己行动的每一个信息集中对博弈进行到哪一个结点都持有一个判断（信念）。 • 如果一个信息集处于均衡路径上，那么该信息集上的信念根据参与者策略由贝叶斯法则决定。 • 如果一个信息集处于非均衡路径上，那么该信息集上的信念根据贝叶斯法则和可能的参与者策略决定 37

小结：不完美信息博弈与PBE • 行为策略 = (1,2 ,…, n ) • 一致信念 • 序贯理性 • 给定参与者的信念和其他参与者的后续策略选择，每个参与者在每个自己行动的信息集上的选择是最优反应。 • 完美贝叶斯均衡（PBE） • 称满足要求1-4的策略与信念组合(s, )为完美贝叶斯均衡

第十一讲 不完美信息动态博弈