第九章博弈论与寡头市场分析

第九章博弈论与寡头市场分析 • 第一节博弈论基本概念 • 1.定义 • 博弈论或称对策论（Game Theory），直译为游戏理论。现实生活中的游戏有两个基本特征：一是至少有两人参加；二是参与人的决策相互影响。如打扑克、下象棋顾客与商人的讨价还价、寡头厂商之间的产量决策和价格决策等。因此我们把具备上述两个特征的活动统称为博弈。博弈论就是用数学方法研究决策相互影响的理性人是如何进行决策以获取最大收益的。

2.构成完整博弈过程需要规定的四件事： 1）参与人或局中人。即有哪些人参与博弈。 2）行动或策略。什么人在什么时候行动；当他行动时，他具有什么样的信息；他能做什么，不能做什么。 3）结果。对参与人的不同行动，这场博弈的结果或结局是什么。 4）报酬。博弈的结果给参与人带来的好处。例1：硬币博弈。 1）参与人：两个小孩甲和乙； 2）行动或策略：甲乙两人各往地上抛一个硬币，甲先抛，乙后抛，要么反面朝上，要么正面朝上； 3）结果：若硬币同为正面或反面，甲赢得乙一个硬币，若硬币一正一反，则甲输给乙一个硬币； 4）报酬：一个一元硬币。本例中每个参与人的输赢可用货币值表示。但也并非都是如此。

例2：接头博弈。 参与人：马大哈和太马虎行动策略：两人分处两地不能沟通。两人被告知到某地见面，但都忘记了接头地点。现各自作出决定去哪儿见面，假设有两地供选择，但只能做一次决定和去一个地方。结果：如他们相遇，则两人可共进午餐，否则只好怏怏而归。报酬：见面共进午餐，每人得到的效用为100，扫兴而归的效用是-20。本例中是把结果所带来的效用作为报酬，但没有直接用数值表示。在这类结果不含数值的博弈中，一般可通过指定效用值来规定报酬。

例3：疑犯博弈。 • 局中人：犯罪人邦德和詹尼； • 行动策略：警局需要两人的口供作为证据，对其隔离录供。每人面对两种选择，坦白或抵赖； • 结果：一方坦白，另一方抵赖，则坦白方可获释放，抵赖方则判刑10年；都坦白则各判8年；都抵赖则各判1年。 • 报酬：以各自刑期的负数作为报酬。 • 本例中的博弈是一个非零和博弈，同时又是不合作博弈，即两人为获释和不被判刑10年，都将会出卖对方。

3.博弈的类型 零和博弈：博弈双方一人所得即另一人所失，博弈之和为0，如例1；非零和博弈：博弈双方一人所得与另一人所失之和不为0，如例2和例3；是否为零和博弈要从结果看；合作博弈：局中人都希望行动或策略保持一致；不合作博弈：局中人至少有一方希望行动或策略不一致。一般说来，零和博弈一定是不合作博弈，但非零和博弈不一定是合作博弈（如例3）；是否为合作博弈要从愿望看。静态博弈：局中人决策时彼此不知对方的决策的博弈，如例2 ；动态博弈：在信息交流畅通的情况下，决策时先后行动的博弈，如例1；序贯博弈：即动态博弈。

4.博弈的描述方法 • 1）策略式描述：表述规定和定义 • 完全信息下的静态博弈的策略表述：用支付矩阵形式直观表描述。邦德坦白抵赖詹尼坦白抵赖

2）扩展式表述。表述规定： • 如例1，甲乙两个小孩往地上抛硬币，甲先乙后，若硬币同面，则甲赢得乙一个硬币，若硬币异面则甲输给乙一个硬币。由此可给出该博弈的博弈树： 1，-1 正乙正 -1，1 反甲 -1，1 正反乙 1，-1 反

第二节零和（常数和）博奕 A可能的收益表 A1 3 2 4 A2 1 1.5 3 B B1 B2 B3 A 一、收益矩阵设有厂商A、B为双头垄断，各自的收益是彼此价格的函数，市场需求为单一弹性，因此不管对手采取何种价格策略，其收益总是恒等于一个常数。即 B可能的收益表 B B1 B2 B3 A A1 3 4 2 A2 5 4.5 3 （常数）

上述两表改为矩阵形式即称收益矩阵： 3 2 4 1 1.5 3 3 4 2 5 4.5 3 6 6 6 6 6 6 = 1 1 1 1 1 1 = 6 即常数和矩阵。

上述常数和矩阵可变成零和矩阵，方法是从 任一收益矩阵中减去常数和加上另一矩阵： 3 4 2 5 4.5 4 0 0 0 0 0 0 3-6 2-6 4-6 1-6 1.5-6 3-6 3 4 2 5 4.5 4 + -3 - 4 -2 -5 -4.5 -4 + = = 当两人收益总和为零和矩阵时,叫两人零和对策.如果把A、B两个厂商的收益看成是收益增量，则常数和对策就变成了零和对策。因为既然市场需求为单一弹性，那么任一厂商收益的增加就意味着竞争对方收益的减少，或A的收益矩阵即B的损失矩阵。二、“最大—最小值定理”（“Min-Max定理”）假定有A和B两个厂商，当他们互相不了解对方将采取何种策略时，为避免风险，必须谨慎行事，作最坏的打算，A先找出自己收益矩阵中各种策略所能获得的最小收益，然后选择其中最大的收益作为自己的最优策略；B也如此行事，但A的所得即B的所失，因此B将从最大损失中选出最小的一个作为其最优的策略。

厂商Ⅰ的收益矩阵

A：“从最小收益中选取最大收益”（行） 为A的最佳策略可知 B：“从最大损失中选取最小损失”（列）可选为B的最佳策略 A的最优策略所获得的收益恰好等于B的最优策略所遭受的损失，博奕结果为2，被称为对策解或均衡解。

第三节纳什均衡与寡头竞争 • 一、上策均衡与纳什均衡 • 上策均衡：上策均衡就是指由于每一个局中人都有上策可用而仅仅使用这一策略的状况。 • 如在疑犯博弈中，上策和下策区分明显，无论对方选择坦白还是抵赖，另一方的上策都是选择坦白。因为对方坦白时，自己坦白虽然会判8年徒刑，但选择抵赖将意味着10年的铁窗，所以，两害相权取其轻，抵赖绝对是下策，两人都不会选择这一策略。因材施教，不管对方选择什么策略，己方都能以不变应万变，自己的上策都是选择坦白。

纳什均衡：博弈中双方都没有绝对的上策，一方的最优策略取决于对方的选择。定义：P279纳什均衡：博弈中双方都没有绝对的上策，一方的最优策略取决于对方的选择。定义：P279 • 典型例子：如接头博弈。若马大哈去甲地，太马虎的上策就是也去甲地，反之亦反。 • 博弈中甲和乙的选择必须相同。 • 不存在纳什均衡的博弈：如例1的硬币博弈。此类博弈中也都没有绝对的上策，其上策的选择也取决于对方的选择，但这一博弈中不存在以上定义的纳什均衡。因为若甲选择正面，乙的上策就是选择反面（异面乙赢）；但给定乙选择反面，甲的上策选择就是反面（同面甲赢）。 • 博弈中甲和乙的选择相同，但乙和甲的选择并不相同。 • 纳什均衡与上策均衡的概念比较，定义：。

二、寡头市场的纳什均衡。 • 寡头垄断市场的定价和定产的情形与那什均衡类似。对所有生产者来说，最佳情况是在串谋或联合时实现利润最大化。但这种情况是不稳定的，因为双方都想以降低价格和增加产量来增加利润。当参加博弈的双方都这样做时，实际上也就实现了那什均衡。 • 在寡头市场中，一个厂商的定价和定产要考虑其竞争对手的策略性行为，因此，各个厂商需要在假定其竞争者的行为以后才能作出其最佳选择。由于厂商会很自然地假定其竞争对手也会在给定该厂商的行为后采取最好的行动，因而我们假定各厂商考虑其竞争者，而其竞争者也将会这么做。联系前面那什均衡的概念，不难看出寡头市场的均衡实际上是一个那什均衡。 • 寡头市场可以有价格假定和产量假定两种那什均衡的情况。

例如：有甲和乙两个生产者，他们在产品价格竞争过程中面临以下选择：例如：有甲和乙两个生产者，他们在产品价格竞争过程中面临以下选择： • 甲和乙都不降价：每家赢利800万。 • 甲和乙都降价10%：每家赢利600万。 • 甲降价乙不降价：甲赢利1000万，乙赢利500万。 • 乙降价甲不降价：乙赢利1000万，甲赢利500万。 • 由此可得甲乙两厂商彼此同时行动的静态博弈的收益矩阵图示：

生产者甲 降价10% 价格不变生产者乙降价10% 价格不变对于甲和乙来说，最优情况是价格都不变，但都为单独降价后1000万的预期利润所吸引，于是都降价 10%，结果是都获得600万的利润。实现那什均衡。厂商甲和乙价格博弈的支付矩阵

三、寡头市场中的古诺模型 • 1）两厂商在竞争时的均衡产量与利润； • 2）两厂商在串通时的均衡产量与利润；总产量为：均衡价格为：令时利润最大。可得到

古诺双头垄断的均衡 产量竞争：串通：厂商Ⅱ的反应函数古诺均衡串通的契约曲线厂商Ⅰ的反应函数 O 产量

第四节动态博弈与先行者优势 一、逆向归纳法求解纳什均衡。逆向归纳法求解的方法是求解动态博弈的基本方法。具体地说，它是从最后行动的局中人的选择入手考察其最优的选择是什么，然后，给定这一选择，比他先行一步的局中人考虑到他的这一最优选择后，再作出自己的最优选择，如此类推，直到第一个行动的局中人作出选择。下例为只考察两阶段的动态博弈，即局中人甲先行动，局中人乙后行动且行动后博弈就结束。

扩展式的三阶段博弈： 从第三阶段开始倒推，局中人甲选择L″，获得收益为3；倒推到第二阶段，局中人乙选择L’，甲获得效益为1，因为他预计甲会选择L″，他若选R′收益将为0；乙甲乙倒推到第一阶段，局中人甲选择L，收益为 2，他若选R收益只能为1。甲甲乙博弈的最终结果：2和0 甲乙

第五节重复博弈 • 考虑下面航空公司的价格联盟问题。 • 为方便讨论，我们假设只有两家航空公司：南航和东航。这两家公司的盟约是：上海始发航班散客票价最低不得低于8.5折。 • 这两家公司都有两个可能的策略：遵守盟约（即诚实）或不遵守盟约（即欺骗）。

H C (5,5) (-2,8) H (8,-2) (2,2) C 重复博弈南航 H-honest C-Cheat 东航我们知道，尽管（H，H）的报酬都较高，这个博弈的唯一纳什均衡是（C，C）。

重复博弈 • 单一博弈（one-shot game）：两个局中人之间只博弈一次。前面的例子是一个典型的单一博弈的结果。在单一博弈中，合作是很难建立的。 • 重复博弈（repeated game）：同样的局中人、同样的博弈重复进行多次。在重复博弈中，合作是可能的。

重复博弈 • 重复博弈可以促进合作（或诚实）主要是因为：现在的合作是为了以后的合作，或者说，对现在的不合作或欺骗的惩罚是以后的不合作。当合作的报酬大于不合作的报酬时，合作是一个较佳的策略。 • 在重复博弈中，重复博弈的次数可以是有限的数次，也可以是无数次。在这两种情况下，结果是不同的。

重复博弈 • 如果重复博弈的次数是有限的数次，比如说5次，情况会怎么样呢？ • 我们先看最后一次博弈，因为博弈双方都知道这是最后一次，结果跟单一博弈时一样，即（C，C）。 • 第四次博弈时，双方知道以后不会有合作，所以最佳策略也是（C，C）。 • 如此反推，在第一次时也不会有合作。

重复博弈 • 只有在重复博弈次数无限的时候，合作才有可能。 • 如果你的对手现在选择C（欺骗），在以后的博弈你永远会选C。 • 只要博弈双方都在意以后的报酬，那么彼此都有积极性在当前博弈中选H。

重复博弈 • 重复博弈的机制，即所谓的“针锋相对”策略（tit-for-tat strategy），是： • 在第一次博弈中，局中人一选H； • 在以后的每次博弈中，只要在前一次博弈中局中人二也是选H，局中人一继续选H； • 一旦在前一次博弈中局中人二选了C，局中人一在当前博弈中肯定选C。 • 反之亦然。

重复博弈 • 声誉（reputation）的价值：如果你有诚实的名誉，你现在的合作伙伴很可能也会选择诚实，你就会享受合作的成果。推而广之，你的新的合作伙伴也有较大的可能性会选择诚实。

第六节合作博弈 • 合作博弈（coordination game）：如果博弈双方能够合作，那么就有可能实现帕累多偏好均衡，即双方的报酬比不合作的时候高。 • 问题：需要什么样的机制才能实现博弈双方的合作？ • 我们知道无限次重复的博弈可以解决合作的问题。还有其他机制吗？

合作博弈 • 例一：看电影的性别之争 • 男孩要看动作片，女孩要看艺术片，他们的报酬矩阵如下，两个博弈人如何达成一致呢？

合作博弈 • 首先找出纳什均衡 • （Action，Action）、（Art，Art）和男孩（2/3，1/3）与女孩（1/3，2/3）。 • 需要其他机制来解决这一次看什么电影的问题。 • 可能的机制：哪一部电影更新？上次看的是什么电影？

合作博弈 • 如果博弈双方有一个共同的理由“自然”认为一个纳什均衡好于另一个，这个均衡就叫做这个博弈的焦点解（focal point）。 • 例如：接头博弈

合作博弈 • 例二：合资企业供应商的选择 • 一个合资企业需要挑选一个供应商，这个企业的两个合伙人都有自己熟悉或偏好的供应商（A和B），那么两个合伙人怎么达成一致呢？

合作博弈 • 首先存在两个纯策略纳什均衡： • （A，A）、（B，B） • 两个合伙人各偏好自己的供应商 • 需要其他机制来解决个问题呢？ • 可能的机制：一个合伙人承诺或威胁要选择A，绝不接受B；或者由第三者来决定选择哪个供应商。

合作博弈 • 例三：确认博羿--R&D投资决定 • 两个企业都有45万元用于投资R&D • 但R&D的投资只有在两个企业同时进行的时候才可能获得成功。 • 报酬矩阵如下：

合作博弈 • 同样存在两个纯策略纳什均衡： • （Invest，Invest）（Don’t，Don’t） • 每个企业都不是很清楚对方的决定 • 需要其他机制来解决个问题呢？ • 可能的机制：由于投资是有风险的，所以需要一个确认（assurance）机制。或者一方承诺要投资（策略性行动），或者一方率先投资（即序贯博弈中的领头者）。

合作博弈 • 通过前面的例子我们可以发现，确保博弈中双方合作的机制是多种多样的。但有两种机制是比较常见的： • 承诺（commitment）机制：我说了我要做，我肯定会做。承诺机制是以名誉做后盾的，一个过去经常毁约的人的承诺是没有任何价值的。 • 序贯博弈机制：序贯博弈机制比承诺机制更强，你先实际做了，希望后面的人会跟着你做。

第七节竞争博弈 • 跟合作博弈相反的是竞争博弈（competition game）。在竞争博弈中不存在合作的可能性，由于存在利益冲突，博弈一方的所得是以另一方的损失为代价的。 • 一个典型的竞争博弈的例子是零和博弈（zero-sum game）。运动比赛、收入分配、企业降价竞争等都可能是零和博弈。

竞争博弈 • 例一：零和博弈—点球射门 • 攻方的目标是进球，守方的目标是扑出尽可能多的球（少进球），在这方面没合作的可能。 • 攻方的策略是：攻左边，或攻右边 • 守方的策略是：守左边，或守右边（以守方的方向为准） • 这是一个典型的同时博弈。

竞争博弈 • 如果守方扑的方向正好是攻方进攻的方向，那么球被扑出的可能性就比较大，反之就较小。而从攻方来说，则是要考虑如何做假动作迷惑守方，使得守方判断失误。因此，攻方肯定会选择混合策略，而不会是纯策略。

竞争博弈 • 假设报酬矩阵（成功的可能性）如下：

竞争博弈 • 攻方的策略：如果攻方攻左边的概率是p，那么 • 如果守方守左边，攻方的预期报酬是：50p+90(1-p)。 • 如果守方守右边，攻方的预期报酬是：80p+20(1-p)。 • 攻方的目标是要实现预期报酬的最大化（见下图）。

竞争博弈 成功的可能性 100 攻方的策略 90 守方守左边 80 62 50 20 守方守右边 p 0 0.7 1

竞争博弈 • 但是，守方知道攻方的企图，希望采取相应的措施使得攻方的预期报酬的最小化。比如说，如果守方确定攻方的p=50%的时候，守方会守右边；在p=90%的时候守左边。 • 攻方的目标因此修正为：实现守方计算的最小攻方预期报酬的最大化（the maximum of the minimum payoffs），即p=0.7。

竞争博弈 成功的可能性 100 90 守方守左边 80 62 50 守方计算的最小攻方预期报酬 20 守方守右边 p 0 0.7 1

竞争博弈 • 攻方的最大预期报酬的计算： • 给定p，攻方在守方守左边和右边的预期报酬预期报酬相等。即50p+90(1-p)= 80p+20(1-p)，得出p=0.7。 • 这一结果反映了给定攻方最大化自己的预期报酬，守方最小化攻方的预期报酬（最大化守方的预期报酬）的结果。

竞争博弈 • 攻方的最佳策略同样可以建立在对方策略选择的基础上。类似地，守方也会选择混合策略，以防止攻方判断其防守方向而攻其不备。 • 如果守方防守左边的概率是q， • 攻方攻击左边的预期报酬是 50q+80(1-q) • 攻方攻击右边的预期报酬是 90q+20(1-q)（见下图）

竞争博弈 成功的可能性 100 守方的策略 90 攻方攻左边 80 62 50 20 攻方攻右边 q 0 0.6 1

第九章博弈论与寡头市场分析