第五章博弈论

第五章博弈论 第一节博弈论基础一、博弈论（Game Theory）博弈论研究决策主体的行为相互发生直接作用时的决策，以及这种决策的均衡问题。也就是说，一个主体（一个人或一个企业）的选择受到其他主体选择的影响，并且其选择反过来会影响到其他主体的选择，这类的的决策问题和均衡问题就是博弈论研究的对象。在这个意义上说，博弈论也称为“对策论”。博弈论中的个体决策与传统经济学中的行为个体决策不同。二、博弈论的基本概念 1、参与者/局中人（players）：在博弈中选择行动以最大化自己效用的决策主体。 2、行动（acttions, moves)：参与者的决策变量。 3、战略（strategies）：参与者选择行动的规则。

4、信息（information）：是参与人在博弈中的知识，特别是有关其他参与人(对手)的特征和行动的知识。4、信息（information）：是参与人在博弈中的知识，特别是有关其他参与人(对手)的特征和行动的知识。 5、支付/收益（payoff）：是参与人从博弈中获得的效用水平，是所有参与人战略或行动的函数，也是是每个参与人真正关心的东西。 6、结果（outcomes）：是指博弈分析者感兴趣的要素的集合。 7、均衡（equilibrium）：是所行参与人的最优战略或行动的组合。上述概念中，参与人、行动、结果统称为博弈规则，博弈分析的目的是使用博弈规则决定均衡。三、博弈的分类 1、合作博弈（cooperative game）和非合作博弈（non- cooperative game ）：人们的行为相互作用时，当事人能不能达成一个具有约束力的协议，如果有，就是合作博弈；反之，则是非合作博弈。现在经济学家谈到博弈论，一般指的是非合作博弈，很少指合作博弈。

2、静态博弈（static game）与动态博弈（dynamic game）：按参与人行动的先后顺序划分，静态博弈：参与者同时决策，或非同时决策但后决策者不知道先决策者的行动。动态博弈：参与者的行动有先后，后决策者能观察到县决策者的行动，并据此选择行动。 3、完全信息博弈（games of complete information）和不完全信息博弈（ games of incomplete information ）：完全信息指的是每一个参与人对所有其他参与人(对手)的特征、战略空间及支付函数有准确的知识；否则，就是不完全信息。

沉默招认沉默招认第二节完全信息静态博弈一、博弈的标准式（nomal form representation）例：囚徒困境。囚徒面临的问题可用下图所示的双变量矩阵表来描述。在此博弈中，每一囚徒有两种战略可供选择：招认、沉默)。在一组特定的战略组合被选定后，两人的收益由矩阵中相应单元的数据来表示。囚犯B 囚犯A 博弈的标准表述包括：(1)博弈的参与者，(2)每一参与者可供选择的战略集，(3)针对所有参与者可能选择的战略组合，每一个参与者获得的收益。可以用支付矩阵表述一个博弈。

假定有n个参与者参加博弈，序号分别为1，2，…，n，第i个参与者可以选择的战略集合（i的战略空间）为Si ，每个具体的战略si为Si 的元素。令（ s1，s2，…，sn)为每个参与人选定一个战略的组成的战略组合， ui表示在该战略组合下参与人i的收益收益函数： ui（ s1，s2，…，sn），表述的标准形式为：二、占优战略均衡（Dominant-stragety equilibrium）一般来说，由于每个参与者的效用（支付）是博弈中所有参与人的战略的函数，因此每个参与者的最优战略选择依赖于所有其他参与人的战略选择。但在—些特殊的博弈中，一个参与人的最优战略可能并不依赖于其他参与人的战略选择，就是说，不论其他参与人选择什么战略，他的最优战略是唯一的，这样的最优战略被称为“占优战略”（dominant stragety）。

沉默按招认等待沉默按招认等待囚犯B 在囚徒困境中，“招认”是每个囚犯的占优战略。博弈的结果是两人都选择“招认”，尽管福利不是最大。囚犯A 占优战略均衡：三、重复剔除严格劣战略均衡（interated dominance equilibrium）在每个参与人都有占优战略的情况下，占优战略均衡是一个非常合理的预测，但在绝大多数博弈中，不存在占优战略均衡。考虑下面的“智猪博弈”。两猪共槽吃食，按下在房间另一端的按钮，能出食8单位，按下按钮者将付出2单位的代价。若大猪先到食槽，能吃到7单位的食，小猪只能吃到1单位的食；若小猪先到食槽，能吃到4单位的食，大猪能吃到4单位的食。小猪大猪

按等待按等待小猪在此博以中，小猪的占优战略为“等待”，而大猪不存在占优战略。此时，不存在占优战略均衡。大猪严格劣战略：如果把“理性的参与者不会选择严格劣战略”作为局中人的理性假设，并且局中人的理性是博弈中的共同知识，则可以通过重复剔除严格劣战略来选择均衡。小猪在智猪博弈中，“按”是小猪的严格劣战略，理性的小猪不会选择“按”；而大猪知道小猪是理性的，不会选择“按”。因此，博弈就变成右边的形式。显然，“等待”是大猪的严格劣战略，大猪不会选择“不按”。（按，等待）为均衡结果。等待按大猪等待

考虑下面的博弈：局中人A的战略空间为（上，下）、局中人B的战略空间为（坐，中，右），收益矩阵如下：考虑下面的博弈：局中人A的战略空间为（上，下）、局中人B的战略空间为（坐，中，右），收益矩阵如下：局中人B “右”是B的相对于“中”的严格劣战略。理性的B不会选择“右”，而理性的A也知道B不会选择“右”，博弈就变为：左中右局中人A 上下局中人B 左中此时，“下”是A的相对于“上”的严格劣战略。理性的A不会选择“下”，而理性的B也知道A不会选择“下”，博弈就变为：局中人A 上下局中人B 此时，“左”是B的相对于“中”的严格劣战略。理性的B不会选择“下”，而理性的A也知道B不会选择“下”，博弈的结果就是：(上，中）。局中人A 左中上上面的过程可称为“重复剔除严格劣战略”，得到的唯一均衡为重复剔除严格劣战略均衡。

尽管“重复剔除严格劣战略” 的过程建立在理性参与人不会选择严格劣战略这一合情近理的原则之上，它仍有两个缺陷：第一，每一步剔除都需要参与者间相互了解的更进一步假定，如果我们要把这一过程应用到任意多步，就需要假定“参与者是理性的 “共同知识”（common knowledge，是与信息有关的一个重要概念。共同知识指的是“所有参与人知道，所有参与人知道所有参与人知道，所有参与人知道所有参与人知道所有参与人知道……”的知识）。局中人B 第二，这一方法对博弈结果的预测经常是不精确的。例如，在下面的博弈中，就没有可以剔除的严格劣战略。左中右局中人A 上中下

四、纳什均衡（Nash equilibrium） 设想在博弈论预测的博弈结果中，为使该预测是正确的，局中人自愿选择的战略必须是理论给他推导出的战略。这样，每个局中人要选择的战略必须是针对其他参与者选择战略的最优战略。这种理论推测结果可以叫做“战略稳定”或“自动实施”的，因为没有参与人愿意独自离弃他所选定的战略，我们把这一状态称为纳什均衡。

纳什均衡和重复剔除严格劣战略均衡的关系：如果用重复剔除严格劣战略把除战略组合 外所有的战略组合都剔除掉，则该所存战略组合就是此博弈惟一的纳什均衡。囚犯B 沉默招认沉默 -1，-1 -9，0 囚犯A 招认 0，-9 -6，-6 在右边的博弈中，局中人B 左中右对于A选择“上”时，B的最优战略为“左”；对于A选择“中”时，B的最优战略为“中”；上对于A选择“下”时，B的最优战略为“右”；局中人A 对于B选择“左”时，A的最优战略为“中”；中对于B选择“中”时，A的最优战略为“上”；下对于B选择“右”时，A的最优战略为“下”；（下，右）满足纳市均衡的条件。 (招认，招认）是重复剔除严格劣战略均衡。 (招认，招认）是纳什均衡。由于重复剔除严格劣战略并不一定会只剩下惟一的战略组合，作为解的概念，纳什均衡比重复剔除严格劣战略更强。

男歌剧拳击歌剧 2，1 0，0 女拳击 0，0 1，2 下面的例子表明一个博弈可以有多个纳什均衡。性别博弈 (歌剧，歌剧)和(拳击，拳击)都是纳什均衡。 “斗鸡博弈”也有多个纳什均衡。五、几个命题

六、应用举例 1、古诺的双头垄断模型假定：双头垄断，非勾结，产量竞争；同质产品，生产的边际成本为0；市场需求为线性需求曲线：P = a – b Q = a – b (q1 + q2 ) ；决策：假定对方不改变产量决策，追求利润最大化。化为标准形式：参与人：厂商1、厂商2 收益：企业的收益就是其利润额，这样在一般的两个参与者标准式博弈中，参与者1的收益分别为：每个厂商要选择的战略必须是针对其他参与者选择战略的最优战略，因而两个厂商各自的反应函数就是其最优反应。

两个厂商的反应函数： 根据纳什均衡的定义，博弈的均衡解（q*1， q*2）必须同时满足两个反应函数：

2、公地的悲剧 有n户村民的村庄，每年在村庄公共牧场上放牧羊只。以gi表示第i户村民放牧的羊数，全村牧羊总数G = g1+ g2+…+ gn。假定购买和照看每只羊的成本为c，c不随意户村民拥有的羊的数目而变化。当草地上羊的总数为G时，一户村民养一只羊的价值为v(G)。由于一只羊要生存，至少需要一定数量的青草，草地可以放牧的羊的总数有一个上限Gmax：当G＜ Gmax时， v(G)>0，而当G≥ Gmax时， v(G)=0。此外，假定在最初，由于有足够的放牧空间，增加一只羊不会对已经放养的羊产生太大影响，而随着羊的增加，所有羊只的价值将受到影响越来越大，到当G = Gmax时，每只羊的价值为0，即： G ＜ Gmax时， v’(G) < 0， v”(G) < 0，如下图所示：这里假定羊是连续可分的，每年初，各户村民决定养殖羊的数目gi。在此博弈中，参与人为n户村民，每户村民的战略就是其决定养殖羊的数目gi，战略空间为[0，∞），而收益为： v(G) G O Gmax

如果（g*1 ,…,g*n）为纳什均衡，则对于村民i，当其他村民选择战略（g*1 ,…, g*i-1 , g*i+1 ,…,g*n）时，其最优战略应是使其收益最大的战略：第一项为每户村民每头羊的边际收益，第二、三项为对村民而言每增加一头羊的边际成本。

从村民的反应函数可看出，尽管每户村民在决定增加饲养量时考虑了对现有羊的价值的负效应，但他考虑的只是对自己羊的影响，而并不是对所有羊的影响。因此，最优点上个人边际成本小于社会边际成本，纳什均衡的总饲养量大于社会最优的饲养量。从村民的反应函数可看出，尽管每户村民在决定增加饲养量时考虑了对现有羊的价值的负效应，但他考虑的只是对自己羊的影响，而并不是对所有羊的影响。因此，最优点上个人边际成本小于社会边际成本，纳什均衡的总饲养量大于社会最优的饲养量。从整个村庄的最优选择考虑，最优的总饲养数G**优以下最优化问题解出：与纳什均衡结果相比较：，即公共资源被过渡使用了。

收益： A B 进入 B -3 ，-3 进入 1 ，0 不进入 A 0 ，1 进入 B 不进入 0 ，0 不进入第三节完全信息动态博弈在静态博弈中，所有参与人同时行动(或行动虽有先后，但没有人在自己行动之前观测到别人的行动。在动态博弈中，参与人的行动有先后顺序，且后行动者在自己行动之前能观测到先行动吉的行动。动态博弈常用扩展式表述。一、博弈的扩展式（extentive form representation）考虑右边以博弈树描述的两阶段博弈。在某产品市场上，厂商A和B对是否进入该市场进行决策。 A是先行动者，B在观察了A的行动后，决定自己的行动。如果市场中只有一个厂商，则该厂商得到全部1个单位的收益。不进入市场的厂商收益为零。如果市场中有两个厂商，则各得到-3单位的收益。

完全（且完美）信息动态博弈的主要特点是：(i)行动是顺序发生的，(ii)下一步行动选择之前，所有以前的行动都可被观察到，及(iii)每一可能的行动组合下参与者的收益都是共同知识。完全（且完美）信息动态博弈的主要特点是：(i)行动是顺序发生的，(ii)下一步行动选择之前，所有以前的行动都可被观察到，及(iii)每一可能的行动组合下参与者的收益都是共同知识。一个博弈的扩展式表述包括： (1）参与人（players）；（2）行动（actions） (2a)每一参与者的行动(the order of actions)； (2b)每次轮到某一参与者行动时，他的行动空间（action sets）； (2c)每次轮到某一参与者行动时，他所了解的信息集（information sets）; (3)与参与者可能选择的每一行动组合相对应的各个参与者的收益。

收益： A B 进入 B -3 ，-3 进入 1，0 不进入 A 0 ，1 进入 B 不进入 0 ，0 不进入二、博弈树（game tree）博弈树由结（nodes）、枝（branches)、信息集（information set)构成。 1．结(nodes)：结包括决策结(decition nodes)和终点结(terminal nodes)两类。决策结是参与人采取行动的时点，终点结是博弈行动路径的终点。在博弃树中，“谁在什么时候行动”用在决策结旁边标注参与人的办法来表示。参与人的支付标注在博弈树终点结处。 2．枝(branches)：在博弈树上，枝是从一个决策结到它的直接后续结的连线，每一个枝代表参与人的一个行动选择。 3．信息集(information sets)：博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集。该子集包括所有满足下列条件的决策结：(1)每一个决策结都是轮到同一参与人的决策结；(2)该参与人知道博弈进入该集合的的某个决策结，但不知道自己究竟处于哪一个决策结。

收益： A B 进入 B -3 ，-3 进入 1 ，0 不进入 A 0 ，1 进入 B 不进入 0 ，0 不进入如果参与人在每一步行动中，都知道前面博弈进行的全过程，则其信息集是单结的，此时，信息是完美的（perfect information）。相反，信息是非完美的（imperfect information）。在右边的博弈中，A是先行动者，其信息集为初始结（initial node），为单结信息集。在A行动以后，轮到B行动时，如果B知道A的行动，如A选择“进入”，则其信息及是单结的（结点1）。如果B不知道A的行动，则B的信息集包括结点1和结点2，而B不知道自己在其中的哪个结点上。在非完美信息条件下，该两阶段博弈其实就是一个完全信息静态博弈。 1 2 在当然，动态博弈也可以用标准式来表述。引入信息集的概念后，也可以用扩展式表述静态博弈。

收益： A B 进入 B -3 ，-3 进入 1 ，0 不进入 A 0 ，1 进入 B 不进入 0 ，0 不进入三、博弈的标准式表述与扩展式表述在市场进入博弈中：A有两个行动：“进入”、“不进入”。由于是先行动者，只有两个战略：选择“进入”或“不进入”。 B有两个行动：“进入”、“不进入”。但是，有4个战略： (1)若A选择“进入”，B选择“进入”，若A选择“不进入”，B选择“进入”，即（进入，进入） (2)若A选择“进入”，B选择“进入”，若A选择“不进入”，B选择“不进入”，即（进入，不进入） 1 2 (3)若A选择“进入”，B选择“不进入”，若A选择“不进入”，B选择“不进入”，即（不进入，进入） (4)若A选择“进入”，B选择“不进入”，若A选择“不进入”，B选择“不进入”，即（不进入，不进入）根据A、B的战略空间，可以用标准式表述该博弈。

收益： A B 沉默 B -1 ，-1 沉默 -9 ，0 招认 A 0 ，-9 沉默 B 招认 -6 ，-6 招认市场进入博弈的标准式： B （进入，进入）（进入，不进入）（不进入，进入）（不进入，不进入）进入 A 不进入囚徒博弈的扩展式（非完美信息博弈）： 1)参与人：A，B 2）行动顺序； A的行动空间：（“沉默”、“招认”）、 B的行动空间：（“沉默”、“招认”）； A的信息集：（初结点）、 B的信息集：（结点1，结点2 ）； 3)支付。 1 2

收益： A B 沉默 -1 ，-1 B 沉默进入 B -3 ，-3 -9 ，0 招认 A 进入 0 ，-9 沉默 B 1 ，0 不进入招认 A 0 ，1 进入 B -6 ，-6 招认不进入 0 ，0 不进入四、子博弈，子博弈精炼纳什均衡 1、子博弈子博弈是原博弈的一部分，它本身可以作为一个独立的博弈进行分析。子博弈的定义：一个扩展式博弈中的子博弈，a)由具有单结信息集的决策结n开始，并包括博弈树中该决策结以下的所有决策结和终点结，并且b)没有对任何信息集形成分割（即如果博弈树中n之下有一个决策结n’，则和n’处于同一信息集的其他决策集结也必须在n之下，从而也必须包含于子博弈中。) 在市场进入博弈中，包含3个子博弈（包括原博弈）。而在囚徒博弈中，只有一个子博弈（？）。

收益： A B 进入 B -3 ，-3 进入 1 ，0 不进入 A 0 ，1 进入 B 该博弈中有三个纳什均衡：不进入，（进入，进入）进入，（不进入，进入）进入，（不进入，不进入）前两个均衡的结果是(进入，不进入)，即A进入，B不进入；不进入 0 ，0 不进入第二个均衡的结果是(不进入，进入)，即A不进入，B进入。 2、子博弈精炼纳什均衡考虑市场进入博弈的纳什均衡。 B （进入，进入）（进入，不进入）（不进入，进入）（不进入，不进入）进入 A 不进入如果理论得到这样的结果，无助于预测博弈参与人的行为。此外，纳什均衡假定，每一个参与人选择的最优战略是在所有其他参与人的战略选择给定时的最优反应，即参与人并不考虑自己的选择对其他人选择的影响，因而纳什均衡很难说是动态博弈的合理解。

收益： A B 进入 B -3 ，-3 进入 1 ，0 不进入 A 0 ，1 进入 B 不进入 0 ，0 不进入因此，必须在多个纳什均衡中剔除不合理的均衡解，即所谓“不可置信威胁”。子博弈精炼纳什均衡是对纳什均衡概念的最重要的改进。它的目的是把动态博弈中的“合理纳什均衡”与“不合理纳什均衡”分开。正如纳什均衡是完全信息静态博弈解的基本慨念一样，子博弈精炼纳什均衡是完全信息动态博弈解的基本概念。 ①{不进入，（进入，进入）} ② {进入，（不进入，进入）}③{进入，（不进入，不进入）} 前边得到的三个纳什均衡中，均衡①意味着当A不进入时，B选择进入；而当A选择进入时，B仍选择进入（B威胁无论如何都要进入市场）。显然，当A选择进入时，B仍选择进入是不合理的，如果A进入市场，B选择“不进入”比选择“进入”收益要更大，理性的B不会选择进入，而A知道B是理性的，因此也不会把该战略视为B会选择的战略。因此，B的战略（进入，进入）是不可置信威胁。

收益： A B 进入 B -3 ，-3 进入 1 ，0 不进入 A 0 ，1 进入 B 不进入 0 ，0 不进入 ①{不进入，（进入，进入）} ② {进入，（不进入，进入）} ③{进入，（不进入，不进入）} ① ③ ② 均衡③意味着当A进入时，B选择不进入；而当A选择不进入时，B仍选择进入（B威胁无论如何都不进入市场）。显然，当A选择进入时，B仍选择进入是不合理的，B的战略是不可置信威胁。 ② ① ③ 只有均衡②是合理的：如果A进入，B不进入；如果A不进入，B进入。因为A是先行动者，理性的A会选择“进入”（他知道B是理性的，B不会选择“进入”），而理性的B选择“不进入”。观察博弈树上的三个均衡中，B的不可置信战略中的反应，在第二阶段B开始行动的两个子博弈中不是最优；而合理的纳什均衡中，B的战略在所有子博弈中都是最优的，与A的第一阶段可能选择的行动构成该子博弈的纳什均衡。

因此，只有当一个战略规定的行动规则在所有可能的情况下都是最优的时，它才是一个合理的、可置信的战略。子博弈精炼纳什均衡就是要剔除掉那些只在特定情况下是合理的而在其他情况下并不合理的行动规则。因此，只有当一个战略规定的行动规则在所有可能的情况下都是最优的时，它才是一个合理的、可置信的战略。子博弈精炼纳什均衡就是要剔除掉那些只在特定情况下是合理的而在其他情况下并不合理的行动规则。子博弈精炼纳什均衡：如果参与者的战略在每一个子博弈中都构成了纳什均衡，则称纳什均衡是子博弈精练的(泽尔滕，1965) 。为简单起见，假定博弈有两个阶段，第一阶段参与人1行动，第2阶段参与人2行动，并且2在行动前观测到1的选择。令A1是参与人1的行动空间，A2是参与人2的行动空间。当博弈进入第二阶段，给定参与人1在第一阶段的选择为a1∈ A1，参与人2面临的问题是：显然参与人2的最优选择a2*依赖于参与人1的选择a1。用a2*＝R(a1)代表上述最优化问题的解(即2的反应函数)。因为参与人1应该预测到参与人2在博弈的第二阶段将按a2*＝R(a1)的规则行动，参与人1在第一阶段面临的问题是：

收益： A B 进入 B -3 ，-3 进入 1 ，0 不进入 A 0 ，1 进入 B 不进入 0 ，0 不进入令上述问题的最优解为a1*。那么，这个博弈的子博弈精炼纳什均衡为{a1*,R2(a1)}，均衡结果为{a1*,R2(a1*)}。(a1*,R2(a1*))是一个精炼均衡，因为a2*＝R2(a1)在博弈的第二阶段是最优的。除a2*＝R2(a1)之外，任何其他的行为规则都不满足精练均衡的要求。上述思路就是逆向归纳法寻找子博弈精炼纳是均衡的基本思路。 3、逆向归纳法（rollback , backward induction）逆向归纳法求解子博弈精炼纳什均衡的过程，实质是重复剔除劣战略过程在扩展式博弈上的扩展：从最后一个决策结开始依次剔除掉每个子博弈的劣战略，最后生存下来的战略构成精炼纳什均衡。如同重复剔除的占优均衡要求“所有参与人是理件的”是共同知识一样，用逆向归纳法求解均衡也要求“所行参与人是理性的”是共同知识。 {进入,（不进入，进入）}

五、应用举例：斯泰克尔伯格模型 假定：双头垄断，非勾结，同时决策；产量竞争；同质产品，生产的边际成本为常数c；市场需求为线性需求曲线：P = a – b Q = a – b (q1 + q2 ) 。在决策过程中，先决策者在考虑对手可能的决策结果的基础上，确定自己的产量；后决策者在观察对手的决策以后，确定自己的产量。两个企业的行动空间分别为A1=[0，∞）， A2=[0，∞）博弈的时间顺序如下：(1)企业1选择产量q1；(2)企业2观测到q1，然后选择产量q2；(3)企业的收益由下面的利润函数给出：为解出这一博弈的逆向归纳解，我们首先计算企业2对企业1任意产量的最优反应R2(a1) ，应满足：

可得到2的反应函数： 企业1也必须像2一样做出最优反应：因此，企业1的最优行动为：而企业2的最优行动为：在此博弈中，子博弈精炼纳什均衡解为：而子博弈精炼纳什均衡为：

第五章 博弈论