完全完美信息动态博弈.pptx

资源描述

第三章完全且完美信息动态博弈本章讨论动态博弈，所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈。这类博弈也是现实中常见的基本博弈类型。由于动态博弈中博弈方的选择、行为有先后次序，因此在表示方法、利益关系、分析方法和均衡概念等方面，都与静态博弈有很大区别。本章对动态博弈分析的概念和方法，特别是子博弈完美均衡和逆推归纳法作系统介绍，并介绍各种经典的动态博弈模型。本章分六节3.1动态博弈的表示法和特点3.2可信性和纳什均衡的问题3.3子博弈和子博弈完美纳什均衡3.4几个经典动态博弈模型3.5有同时选择的动态博弈模型3.6动态博弈分析的问题和扩展讨论3.1 动态博弈的表示法和特点3.1.1 阶段和扩展性表示3.1.2 动态博弈的基本特点3.1.1 阶段和扩展性表示n阶段：动态博弈中一个博弈方的一次选择行为n扩展形n节点n枝n得益数组初始节和终点节：定义：P(X)为x之前的所有节的集合（前列集）T(X)为x之后的所有节的集合（后续集）当P(x)=时，称为初始节。当T(x)=时，称为终点节。（2）枝枝是决策节与直接后续节之间的连线，表示一种策略选择。3.1.1 阶段和扩展性表示（续）n例子：仿冒和反仿冒博弈ABBA不制止制止（-2，5）（2，2）（10，4）（5，5）不仿冒（0，10）仿冒不制止制止仿冒不仿冒例子：海盗分金3.1.2 动态博弈的基本特点n策略是在整个博弈中所有选择、行为的计划n结果是上述“计划型”策略的策略组合，构成一条路径n得益对应每条路径，而不是对应每步选择、行为n动态博弈的非对称性先后次序决定动态博弈必然是非对称的。n先选择、行为的博弈方有“先行优势”。n后选择的博弈方有“信息优势”3.2 可信性和纳什均衡的问题3.2.1 相机选择和策略中的可信性问题3.2.2 纳什均衡的问题3.2.3 逆推归纳法3.2.1 相机选择和策略中的可信性问题不同版本的开金矿博弈分钱和打官司的可信性乙甲（0，4）（2，2）（1，0）不借借分不分开金矿博弈不借乙甲乙借不分分（1，0）不打打（0，4）（1，0）（2，2）有法律保障的开金矿博弈分钱打官司都可信乙甲乙打（2，2）不分分不借借（0，4）（-1，0）不打（1，0）法律保障不足的开金矿博弈分钱打官司都不可信3.2.2 纳什均衡的问题第三种开金矿博弈中，（不借-不打，不分）和（借-打，分）都是纳什均衡。但后者不可信，不可能实现或稳定。n结论结论：纳什均衡在动态博弈可能缺乏稳定性，也就是说，在完全信息静态博弈中稳定的纳什均衡，在动态博弈中可能可能是不稳定的，不能作为预测的基础。n根源根源：纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定，不能解决动态博弈的相机选择引起的可信性问题3.2.3 逆推归纳法定义定义：从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法，称为“逆推归逆推归纳法纳法”。n逆推归纳法是动态博弈分析最重要、基本的方法。3.2.3 逆推归纳法（续）乙甲乙打（2，2）不分分不借借（0，4）（-1，0）不打（1，0）法律保障不足的开金矿博弈分钱打官司都不可信3.2.3 逆推归纳法（续）乙不借借（1，0）甲不分分（0，4）（2，2）3.2.3 逆推归纳法（续）乙不借借（1，0）（0，4）3.3 子博弈和子博弈完美纳什均衡3.3.1 子博弈3.3.2 子博弈完美纳什均衡3.3.1 子博弈n定义：由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的，有初始信息集和进行博弈所需要的全部信息，能够自成一个博弈的原博弈的一部分，称为原动态博弈的一个“子博弈”。乙甲不借借不分分（1，0）（0，4）（2，2）乙（-1，0）3.3.2 子博弈完美纳什均衡定义定义：如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。n子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。n逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。3.3.2 子博弈完美纳什均衡（续）乙甲不借借不分分（1，0）（0，4）（2，2）乙（-1，0）（不借-不打，不分）是子博弈完美纳什均衡（借-打，分）不是子博弈完美纳什均衡打不打3.4 几个经典动态博弈模型3.4.1 寡占的斯塔克博格模型3.4.2 劳资博弈3.4.3 讨价还价博弈3.4.4 委托人代理人理论3.4.1 寡占的斯塔克博格模型n先后选择产量的产量竞争博弈n把古诺模型改为厂商1先选择，厂商2后选择，而非同时选择即可。222126qqqq-=3.4.1 寡占的斯塔克博格模型递推归纳法第二阶段，厂商2做决定时会把当作既定常数，考虑下列的极值问题：第一阶段，厂商1决策时候知道厂商2的产量是由上面等式决定，因此他需要考虑的是下列的极值问题：厂商2的最佳产量是：产量得益厂商1 3单位 4.5厂商2 1.5单位 2.25先行优势3.4.2 劳资博弈先由工会决定工资率，再由厂商决定雇用多少劳动力工会追求：较高的工资较多的工人得到雇佣厂商追求利润3.4.2 劳资博弈（续）RL0W L厂商的反应函数R(L)斜率为WLW0工会的误差异曲线3.4.3 讨价还价博弈三回合讨价还价112不接受，出S接受不接受，出S2接受出S1三回合讨价还价博弈结果的讨论甲和乙得益之比是：无限回合讨价还价112不接受，出S接受不接受，出S2接受出S12.无限回合讨价还价12接受出S无限回合讨价还价112不接受，出S接受不接受，出S2接受出S13.4.4 委托人代理人理论一、委托人代理人关系n经济活动和社会活动中有很多委托人代理人关系，有明显的，也有隐蔽的。工厂和工人、店主和店员、客户和律师、市民和政府、基金购买者和基金管理人等都是。n委托人代理人关系的关键特征：不能直接控制，监督不完全，信息不完全，利益的相关性n委托人代理人涉及问题：激励机制设计、机制设计理论，委托合同设计问题等二、无不确定性的委托人代理人模型R(S)-w(S),w(S)-SR(E)-w(E),w(E)-ER(0),0R(0),0122偷懒努力拒绝接受不委托委托代理人的选择激励相容约束：w(E)-E w(S)-S w(E)w(S)+E-S参与约束：22R(E)-w(E),w(E)-E拒绝接受拒绝接受R(0),0R(S)-w(S),w(S)-SR(0),0参与约束接受：w(E)-E0接受：w(S)-S0n委托人的选择11不委托委托委托R(S)-w(S),w(S)-SR(0),0R(E)-w(E),w(E)-E不委托R(0),0委托：R(E)-w(E)R(0)不委托：R(E)-w(E)R(0)不委托：R(S)-w(S)0不委托：0.1*20-w(S)+0.9*10-w(S)0不委托：0.9*20-w(E)+0.1*10-w(E)0.1*w(20)-S+0.9*w(10-S)接受：0.9*w(20)-E+0.1*w(10)-E0委托：0.9*20-w(20)+0.1*10-w(10)0激励相容约束促使代理人努力的激励相容约束、参与约束，以及委托人选择委托的条件参与约束对于委托人来说，就是要根据上述两个条件，以及 E、S的值，选择最佳的工资水平w(20)和w(10)，或者它们的差额w(20)-w(10)五、选择报酬和连续努力水平的委托人代理人博弈该博弈问题的基本假设：努力成果不确定且不可监督代理人在连续区间上选择努力水平e委托人选择报酬函数代理人有正值的机会成本：努力的负效用是e的单调函数产出R是e的函数委托人得益函数：代理人得益函数：五、选择报酬和连续努力水平的委托人代理人博弈R,CC(e)+R(e)委托人希望的代理人努力水平（满足参与约束）店主和店员的问题商店的利润，是均值为0的随机变量店员的负效用，是店员的努力机会成本为1店主采用的报酬计算公式店员的得益店员期望得益为店主的得益为店主的期望得益为固定工资和利润分成设计A和B，使报酬公式成为有效的激励参与约束参与约束：当店员风险中性时，符合其最大利益店员风险中性店员参与约束下限店主得益店主期望得益店主的期望得益最大店主设计薪酬合同使得代入店员参与约束下限两边取数学期望则店主的最优激励工资计算公式是3.5 有同时选择的动态博弈模型3.5.1 标准模型3.5.2 间接融资和挤兑风险3.5.3 国际竞争和最优关税3.5.1 标准模型n博弈中有四个博弈方，分别称为博弈方1、博弈方2、博弈方3和博弈方4n第一阶段是博弈方1和博弈方2的选择阶段，他们同时在各自的可选策略（行为）集合和中分别选择和 n第二阶段是博弈方3和博弈方4的选择阶段，他们在看到博弈方1和博弈方2的选择和以后，同时在各自的可选策略（行为）集合和中分别选择和n各博弈方的得益都取决于所有博弈方的策略即博弈方i的得益是各个博弈方所选择策略的多元函数3.5.2 间接融资和挤兑风险下一阶段1，11，11，1不存存款客户客户2不存存款客客户户1第一阶段0.8，0.80.6，11，0.61.2，1.2提前到期客户客户2提前到期客客户户1第二阶段（到期，到期）（存款，存款）（提前，提前）（不存，不存）1.2，1.2第二阶段建立信贷保证、保险制度，对存款进行保护、保险的原因非法集资问题现代更容易引发金融、社会风险的主要是不正规的非法金融活动，如地下钱庄和非法集资等。因为非法金融活动常常通过恶意欺骗的手段吸引人们参加，用借新债还旧债的方法，而不是经营利润偿还到期资金，信用差、管理差而且缺乏保险措施，引起金融风险并引发社会问题的可能性要大得多。3.5.3 国际竞争和最优关税背景：国家1与国家2，各自决定本国进口商品的关税和每个国家一家企业。企业i生产供内销，生产供出口国货和进口货是完全替代的国家1的商品总量：国家2的商品总量：市场出清价格：3.5.3 国际竞争和最优关税厂商的得益函数为：第二阶段厂商i选择：政府的得益函数；本国国家关税：本国企业利润：本国消费者剩余：3.5.3 国际竞争和最优关税0 0本国消费者剩余：3.5.3 国际竞争和最优关税3.5.3 国际竞争和最优关税第二阶段厂商选择：给定和解第一个极大值问题解第二个极大值问题3.5.3 国际竞争和最优关税类似的，对厂商j有：联立四个方程，我们有：第一阶段政府选择：先把第二阶段根据厂商选择得到结果代入政府得益，再求最优化：政府的得益函数；3.5.3 国际竞争和最优关税3.6 动态博弈分析的问题和扩展讨论3.6.1 逆推归纳法的问题3.6.2 颤抖手均衡和顺推归纳法3.6.3 蜈蚣博弈问题3.6.1 逆推归纳法的问题n逆推归纳法只能分析明确设定的博弈问题，要求博弈的结构，包括次序、规则和得益情况等都非常清楚，并且各个博弈方了解博弈结构，相互知道对方了解博弈结构。这些可能有脱实际的可能n逆推归纳法也不能分析比较复杂的动态博弈n在遇到两条路径利益相同的情况时逆推归纳法也会发生选择困难n对博弈方的理性要求太高，不仅要求所有博弈方都有高度的理性，不允许犯任何错误，而且要求所有博弈方相互了解和信任对方的理性，对理性有相同的理解，或进一步有“理性的共同知识”3.6.2 颤抖手均衡和顺推归纳法n颤抖手均衡10,010,12,06,2LRUD博弈方博弈方2博博弈弈方方1LRUD2,010,16,29,03.6.2 颤抖手均衡和顺推归纳法（续）n颤抖手均衡(3,3)(2,3)1212L(0,0)NTVRM(1,2)(1,1)SU(2,1)1212L(0,0)NTVRM(1,2)(1,1)SU(2,1)顺推归纳法0，01，30，03，1swwsRD(2,2)21Van Damme 博弈3，10，02，22，20，01，3DsRwsDw博博弈弈方方1博弈方博弈方2Van Damme 博弈策略形顺推归纳法：根据博弈方前面的行为，推断他们的思路并为后面阶段博弈方提供依据的分析方法3.6.3 蜈蚣博弈问题n该博弈是说明逆推归纳法和博弈分析困难的经典博弈1211212R(98,98)(97,100)dr(99,99)DRrd(98,101)(100,100)DRrd(0,3)D(2,2)R(1,1)D3、多个纯战略纳什均衡博弈的有限重复博弈、多个纯战略纳什均衡博弈的有限重复博弈n触发战略和子博弈精炼纳触发战略和子博弈精炼纳什均衡的多重性什均衡的多重性。这一类博弈的子博弈精炼纳什均衡结果非常复杂与多样，不仅存在由元博弈纳什均衡组合构成的重复性动态博弈纳什均衡，而且存在由“触发战略”构成的子博弈精炼纳什衡。例如，两个厂商之间的定价博弈，它们各有高、中、底三种价格策略。这个元博弈有两个纯战略纳什均衡:（M,M）和(L,L)。但是该博弈的两次重复博弈却有多个子博弈精炼纳什均衡。厂商二厂商二厂商二厂商二厂厂厂厂商商商商一一一一HHMML LHHMML LL L5 ;55 ;50 ;60 ;60 ;20 ;26 ;06 ;02 ;02 ;03 ;33 ;32 ;02 ;00 ;20 ;21 ;11 ;1均衡一均衡一均衡一均衡一：（：（：（：（M,MM,M）；（）；（）；（）；（L,LL,L）均衡二：均衡二：均衡二：均衡二：（M ,MM ,M）；（）；（）；（）；（M,MM,M）均衡三均衡三均衡三均衡三：（：（：（：（L,LL,L）；（）；（）；（）；（L,LL,L）均衡四均衡四均衡四均衡四：（：（：（：（L,LL,L）；（）；（）；（）；（M,MM,M）另外，还有一个触发战略：另外，还有一个触发战略：n厂商1：第一次选择H，如果第一次结果为（H,H），则第二次选择M，如果第一次结果为其它，则第二次选择L。n厂商2：同厂商1。两次重复博弈的均衡路径为：第一次（H;H）；第二次（M;M）。这是一个子博弈完美纳什均衡。这种战略被称为存在“报复机制”的触发战略，即双方首先试探合作，如果对方采取不合作的机会主义策略，则下一轮采取“报复”策略。有限次重复博弈的民间定理有限次重复博弈的民间定理n 先看一个两厂商市场选择策先看一个两厂商市场选择策略博弈。在这个博弈中，双方只略博弈。在这个博弈中，双方只要采取策略要采取策略A，则最差均衡得益都，则最差均衡得益都是是1，这种最底限度保证得益称为，这种最底限度保证得益称为“个体理性得益个体理性得益”，由双方的，由双方的“个体理性得益个体理性得益”构成得益数组构成得益数组W，在此，均衡得益数组，在此，均衡得益数组W=（1；1）。则有以下）。则有以下民间定理民间定理成立：设成立：设元博弈有多个纯战略纳什均衡，元博弈有多个纯战略纳什均衡，并且有均衡得益数组并且有均衡得益数组W，那么，那么，在该博弈的多次重复中，所有不在该博弈的多次重复中，所有不小于个体理性得益的可实现得益，小于个体理性得益的可实现得益，都至少有一个子博弈精炼纳什均都至少有一个子博弈精炼纳什均衡的极限的平均得益来实现它们。衡的极限的平均得益来实现它们。就是说，在左图中由（就是说，在左图中由（1；1）、）、（1；4）、（）、（3；3）、（）、（4；1）四点连成边界线所围阴影部分中四点连成边界线所围阴影部分中间没一点所对应的双方得益，都间没一点所对应的双方得益，都有子博弈精炼纳什均衡或者这种有子博弈精炼纳什均衡或者这种均衡的极限来实现它。均衡的极限来实现它。厂商厂商厂商厂商 2 2厂商厂商厂商厂商1 1A AB BA AB B3 ;33 ;34;14;11;41;40;00;0厂商一厂商一厂商一厂商一厂厂厂厂商商商商二二二二（3 3；3 3）（1 1；4 4）（4 4；1 1）W=W=（1 1；1 1）无限次重复博弈的纳什均衡无限次重复博弈的纳什均衡n（1）循环相克博弈无限次重复的纳什均衡。循环相克博弈无限次重复的纳什均衡。n例如：无限次重复进行剪刀、石头、布的博弈游例如：无限次重复进行剪刀、石头、布的博弈游戏，其纳什均衡与有限次重复博弈和元博弈相同，戏，其纳什均衡与有限次重复博弈和元博弈相同，都是每次采用各子策略三分之一的混合战略。都是每次采用各子策略三分之一的混合战略。n（2）具有唯一纯战略纳什均衡博弈无限次重复的具有唯一纯战略纳什均衡博弈无限次重复的纳什均衡。纳什均衡。n类型一：元博弈纳什均衡是帕累托意义上的最优类型一：元博弈纳什均衡是帕累托意义上的最优战略组合，则其元博弈无限次重复的纳什均衡与战略组合，则其元博弈无限次重复的纳什均衡与有限次重复相同。有限次重复相同。n类型二：元博弈纳什均衡不是帕累托意义上的最类型二：元博弈纳什均衡不是帕累托意义上的最优战略组合，博弈双方存在通过合作使自身利益优战略组合，博弈双方存在通过合作使自身利益获得帕累托改进的可能，则存在触发战略纳什均获得帕累托改进的可能，则存在触发战略纳什均衡的可能。衡的可能。例如；无限次寡头企业市场价格竞争博弈例如；无限次寡头企业市场价格竞争博弈n 在这个博弈的无限在这个博弈的无限次重复中，如果双方采次重复中，如果双方采取如下触发战略：第一取如下触发战略：第一阶段选择阶段选择H，在第，在第t阶段，阶段，如果前如果前t-1阶段的结果都阶段的结果都是（是（H;H），则继续采），则继续采用用H，否则采用，否则采用L。就是。就是说，双方首先都试图合说，双方首先都试图合作，选择作，选择H，如果对方，如果对方合作则一直选择合作则一直选择H，如，如果对方不合作，则一直果对方不合作，则一直选择选择L作为报复。作为报复。企业一企业一企业一企业一企企企企业业业业二二二二HHL LHHL L4 ;44 ;40 ;50 ;55 ;05 ;01 11 11 1;1 11 ;11 ;1可以证明，如果贴现因子可以证明，如果贴现因子可以证明，如果贴现因子可以证明，如果贴现因子足够大，上述触发战略足够大，上述触发战略足够大，上述触发战略足够大，上述触发战略构成无限次重复博弈的一构成无限次重复博弈的一构成无限次重复博弈的一构成无限次重复博弈的一个子博弈精炼纳什均衡。个子博弈精炼纳什均衡。个子博弈精炼纳什均衡。个子博弈精炼纳什均衡。证明如下：证明如下：n设企业一已经采用上面触发策略，只要证设企业一已经采用上面触发策略，只要证明明足够大时，触发策略同样是企业二的最足够大时，触发策略同样是企业二的最佳策略，由于两企业是对称的，所以也就佳策略，由于两企业是对称的，所以也就证明了上面策略是双方的纳什均衡策略。证明了上面策略是双方的纳什均衡策略。n 当企业一采用策略当企业一采用策略H时，如果企业二时，如果企业二采用非合作的机会主义策略采用非合作的机会主义策略L，那么，虽然，那么，虽然第一阶段能得到第一阶段能得到5，但是，由于从此企业一，但是，由于从此企业一会采用报复策略会采用报复策略L，因此，以后每一轮博弈，因此，以后每一轮博弈的最好得益是的最好得益是1，全部博弈的现值为：，全部博弈的现值为：n =5+1+22+=5+/(1-)如果企业二采用合作策略如果企业二采用合作策略H，则第一阶段得，则第一阶段得益为益为4，并且以后每阶段的得益都是，并且以后每阶段的得益都是4，设，设总得益为总得益为V，由于是无限次重复博弈，可以，由于是无限次重复博弈，可以把第一阶段以后的得益也看成把第一阶段以后的得益也看成V，则有：，则有：V=4+V V=4/(1-)如果；如果；4/(1-)5+/(1-)，即，即1/4时，企业二就会采用策略时，企业二就会采用策略H，否则采用策略，否则采用策略L。依此可推出以后每一轮博弈的均衡策略。依此可推出以后每一轮博弈的均衡策略都是都是H。这样，我们就证明了，只要博弈人。这样，我们就证明了，只要博弈人足够重视远期收益足够重视远期收益，触发策略就是无限重复，触发策略就是无限重复博弈的纳什均衡。博弈的纳什均衡。无限次重复博弈民间定理无限次重复博弈民间定理n设设G是一个完全信息静态是一个完全信息静态博弈，用博弈，用(e1 en)记记G的的纳什均衡得益，用纳什均衡得益，用(x1 xn)表示表示G的任意可实现得的任意可实现得益，如果益，如果xiei对任意博对任意博弈方都成立，而弈方都成立，而足够大，足够大，那么无限次重复博弈那么无限次重复博弈G（,）中一定存在一）中一定存在一个子博弈完美纳什均衡，个子博弈完美纳什均衡，使得各博弈方的平均得益使得各博弈方的平均得益就是就是(x1 xn)n无限次重复博弈民间定理无限次重复博弈民间定理意味着，上面图形中阴影意味着，上面图形中阴影部分所对应的数组，在该部分所对应的数组，在该博弈的无限次重复中，都博弈的无限次重复中，都有一个子博弈完美纳什均有一个子博弈完美纳什均衡的平均得益来实现它。衡的平均得益来实现它。企企企企业业业业企企企企业业业业二二二二得得得得益益益益企业一得益企业一得益企业一得益企业一得益（0 0，5 5）（4 4，4 4）（5 5，0 0）（1 1，1 1）

展开阅读全文