博弈论：第三章完全且完美信息动态博弈.ppt

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三章完全且完美信息动态博弈,本章讨论动态博弈，所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈,。,这类博弈也是现实中常见的基本博弈类型。由于动态博弈中博弈方的选择、行为有先后次序，因此在表示方法、利益关系、分析方法和均衡概念等方面，都与静态博弈有很大区别。本章对动态博弈分析的概念和方法，特别是子博弈完美均衡和逆推归纳法作系统介绍，并介绍各种经典的动态博弈模型。,本章分六节,3.1动态博弈的表示法和特点,3.2可信性和纳什均衡的问题,3.3子博弈和子博弈完美纳什均衡,3.4几个经典动态博弈模型,3.5有同时选择的动态博弈模型,3.6动态博弈分析的问题和扩展讨论,3.1,动态博弈的表示法和特点,3.1.1,阶段和扩展性表示,3.1.2,动态博弈的基本特点,3.1.1,阶段和扩展性表示,阶段：动态博弈中一个博弈方的一次选择行为,例子：仿冒和反仿冒博弈,A,B,B,A,不制止,制止,（,-2,，,5,）,（,2,，,2,）,（,10,，,4,）,（,5,，,5,）,不仿冒,（,0,，,10,）,仿冒,不制止,制止,仿冒,不仿冒,3.1.2,动态博弈的基本特点,策略是在整个博弈中所有选择、行为的计划,结果是上述“计划型”策略的策略组合，构成一条路径,得益对应每条路径，而不是对应每步选择、行为,动态博弈的非对称性先后次序决定动态博弈必然是非对称的。,先选择、行为的博弈方常常更有利，有“先行优势”。,3.2,可信性和纳什均衡的问题,3.2.1,相机选择和策略中的可信性问题,3.2.2,纳什均衡的问题,3.2.3,逆推归纳法,3.2.1,相机选择和策略中的可信性问题,由于动态博弈中博弈方的策略是多阶段的行动计划，实施起来有一个过程，而且又没有强制力，因此博弈方完全可以在博弈过程中改变计划，我们称这种问题为“相机选择,”,问题。,相机选择的存在使得动态博弈中各博弈方策略设定的行为选择的“可信性”有了疑问,3.2.1,相机选择和策略中的可信性问题,不同版本的开金矿博弈分钱和打官司的可信性,乙,甲,（,0,，,4,）,（,2,，,2,）,（,1,，,0,）,不借,借,分,不分,开金矿博弈,不借,乙,甲,乙,借,不分,分,（,1,，,0,）,不打,打,（,0,，,4,）,（,1,，,0,）,（,2,，,2,）,有法律保障的开金矿博弈,分钱打官司都可信,乙,甲,乙,打,（,2,，,2,）,不分,分,不借,借,（,0,，,4,）,（,-1,，,0,）,不打,（,1,，,0,）,法律保障不足的开金矿博弈,分钱打官司都不可信,3.2.2,纳什均衡的问题,第三种开金矿博弈中，（不借-不打，不分）和（借-打，分）都是纳什均衡。但后者不可信，不可能实现或稳定。,结论,：纳什均衡在动态博弈可能缺乏稳定性，也就是说，在完全信息静态博弈中稳定的纳什均衡，在动态博弈中,可能,是不稳定的，不能作为预测的基础。,根源,：纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定，不能解决动态博弈的相机选择引起的可信性问题,3.2.3,逆推归纳法,定义,：从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法，称为“,逆推归纳法,”。,逆推归纳法是动态博弈分析最重要、基本的方法。,乙,不借,借,（,1,，,0,）,甲,不分,分,（,0,，,4,）,（,2,，,2,）,3.3,子博弈和子博弈完美纳什均衡,3.3.1,子博弈,3.3.2,子博弈完美纳什均衡,3.3.1,子博弈,定义：由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的，有初始信息集和进行博弈所需要的全部信息，能够自成一个博弈的原博弈的一部分，称为原动态博弈的一个“子博弈”。,乙,甲,不借,借,不分,分,（,1,，,0,）,（,0,，,4,）,（,2,，,2,）,乙,（,-1,，,0,）,3.3.2,子博弈完美纳什均衡,定义,：如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个,“子博弈完美纳什均衡”。,子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。,子博弈完美纳什均衡是动态博弈分析的核心均衡概念，其本身也是纳什均衡，势必那时均衡更强的均衡概念,3.3.2,子博弈完美纳什均衡,从动态博弈的最后一个阶段开始，逐个阶段向前面的阶段倒退分析博弈方行为选择的动态博弈分析方法，称为“逆推归纳法,”,。,逆推归纳法的逻辑基础是理性的先行为博弈方，在选择行为是必然会考虑后行为博弈方后面阶段的行为选择，因此通常只有在不再有后续阶段的最后一个阶段才能直接作出明确选择，当后面阶段的选择确定以后前一阶段的选择就可以确定了。,3.3.2,子博弈完美纳什均衡,逆推归纳法,是求完美信息动态博弈子博弈完美纳什均衡的基本方法。,先来后到的案例,B,不进,打进,（,1,，,10,）,A,和平,打击,（,5,，,5,）,（,-2,，,3,）,3.4,几个经典动态博弈模型,3.4.1,寡占的斯塔克博格模型,3.4.2,劳资博弈,3.4.3,讨价还价博弈,3.4.4,委托人,代理人理论,3.4.1,寡占的斯塔克博格模型,先后选择产量的产量竞争博弈,把古诺模型改为厂商1先选择，厂商2后选择，而非同时选择即可。,2,2,2,1,2,6,q,q,q,q,-,-,=,产量得益,厂商,1 3,单位,4.5,厂商,2 1.5,单位,2.25,先行优势,3.4.2,劳资博弈,先由工会决定工资率，再由厂商决定雇用多少劳动力,R,L,0,W L,厂商的反应函数,R(L),斜率为,W,L,W,0,工会的误差异曲线,3.4.3,讨价还价博弈,三回合讨价还价,1,1,2,不接受，出,S,接受,不接受，出,S2,接受,出,S1,三回合讨价还价博弈结果的讨论,3.4.4,委托人,代理人理论,一、委托人代理人关系,经济活动和社会活动中有很多委托人代理人关系，有明显的，也有隐蔽的。工厂和工人、店主和店员、客户和律师、市民和政府、基金购买者和基金管理人等都是。,委托人代理人关系的关键特征：不能直接控制，监督不完全，信息不完全，利益的相关性,委托人代理人涉及问题：激励机制设计、机制设计理论，委托合同设计问题等,二、无不确定性的委托人,代理人模型,R(S)-w(S),w(S)-S,R(E)-w(E),w(E)-E,R(0),0,R(0),0,1,2,2,偷懒,努力,拒绝,接受,不委托,委托,代理人的选择,激励相容约束：,w(E)-E w(S)-S,w(E)w(S)+E-S,参与约束：,2,2,R(E)-w(E),w(E)-E,拒绝,接受,拒绝,接受,R(0),0,R(S)-w(S),w(S)-S,R(0),0,接受：,w(E)-E0,接受：,w(S)-S0,参与约束,委托人的选择,1,1,不委托,委托,委托,R(S)-w(S),w(S)-S,R(0),0,R(E)-w(E),w(E)-E,不委托,R(0),0,委托：,R(E)-w(E),R(0),不委托：,R(E)-w(E),R(0),不委托：,R(S)-w(S),0,不委托：,0.1*20-w(S)+0.9*10-w(S),0,不委托：,0.9*20-w(E)+0.1*10-w(E)0.1*w(20)-S+0.9*w(10-S),接受：,0.9*w(20)-E+0.1*w(10)-E0,委托：,0.9*20-w(20)+0.1*10-w(10)0,激励相容约束,促使代理人努力的激励相容约束、参与约束，以及委托人选择委托的条件,参与约束,对于委托人来说，就是要根据上述两个条件，以及,E、S,的值，选择最佳的工资水平,w(20),和,w(10),，,或者它们的差额,w(20),-,w(10),五、选择报酬和连续努力水平的委托人,代理人博弈,R,C,C(e)+,R(e),委托人希望的代理人努力水平,（满足参与约束）,店主和店员的问题,商店的利润，是均值为,0,的随机变量,店员的负效用，是店员的努力,机会成本为1,店主采用的报酬计算公式,店员的得益,店员期望得益为,店主的得益为,参与约束,：,当店员风险中性时符合其最大利益,店主选择下限代入得益公式得：,，期望得益为，易求得,令得，再代入参与约束得，,求数学期望得解得，,则店主的最优激励工资计算公式是,3.5,有同时选择的动态博弈模型,3.5.1,标准模型,3.5.2,间接融资和挤兑风险,3.5.3,国际竞争和最优关税,3.5.4 工资奖金制度,3.5.1,标准模型,博弈中有四个博弈方，分别称为博弈方,1,、博弈方,2,、博弈方,3,和博弈方,4,第一阶段是博弈方,1,和博弈方,2,的选择阶段，他们同时在各自的可选策略（行为）集合,和,中分别选择和,第二阶段是博弈方,3,和博弈方,4,的选择阶段，他们在看到博弈方,1,和博弈方,2,的选择和以后，同时在各自的可选策略（行为）集合,和,中分别选择和,各博弈方的得益都取决于所有博弈方的策略即博弈方,i,的得益是各个博弈方所选择策略的多元函数,3.5.2,间接融资和挤兑风险,下一阶段,1,，,1,1,，,1,1,，,1,不存,存款,客户,2,不存,存款,客,户,1,第一阶段,0.8,，,0.8,0.6,，,1,1,，,0.6,1.2,，,1.2,提前,到期,客户,2,提前,到期,客,户,1,第二阶段,（到期，到期）（存款，存款）,（提前，提前）（不存，不存）,1.2,，,1.2,第二阶段,建立信贷保证、保险制度，,对存款进行保护、保险的原因,非法集资问题,现代更容易引发金融、社会风险的主要是不正规的非法金融活动，如地下钱庄和非法集资等。因为非法金融活动常常通过恶意欺骗的手段吸引人们参加，用借新债还旧债的方法，而不是经营利润偿还到期资金，信用差、管理差而且缺乏保险措施，引起金融风险并引发社会问题的可能性要大得多。,3.5.3,国际竞争和最优关税,模型中有两个相似国家，分别称为国家,1,和国家,2,，这两个国家在博弈中作为博弈方决定本国进口商品的关税税率,两国各有一个企业，既内销又外销，分别称为企业,1,和企业,2,两个国家的市场是隔离的市场,国货和进口货之间可以完全替代,3.5.3,国际竞争和最优关税,市场出清价格,企业,i,产销量,企业,i,总成本,单位边际成本：；国内销量；国外销量；关税税率。,补充知识：市场出清,市场出清是指在市场调节供给和需求的过程中市场机制能够自动地消除超额供给(供给大于需求)或超额需求(供给小于需求)市场在短期内自发地趋于供给等于需求的均衡状态,。,市场出清是经济学中的一个非常重要的概念，在一般经济分析中，常常假定通过价格机制，可以自动实现市场出清，即价格的波动影响了消费者的购买量以及厂商的产量，并使得供给量和需求量相等。但是，在现实经济中，影响市场出清有很多因素，例如，在不同产业结构中，产品的同质性、供给和需求的变动性、存货量以及生产的计划性等都有较大的差异，从而导致厂商的不同行为，这些都会对市场出清产生较大的影响,。,补充知识：,具体来说，市场出清是指在市场调节供给和需求的过程中市场能够自动的消除超额供给或超额需求，使得市场在短期内自发的趋于供给等于需求的平衡状态。在给定的价格P下，市场上的意愿供给等于意愿需求。,3.5.3,国际竞争和最优关税,厂商的得益函数为：,第二阶段厂商选择：,第一阶段政府选择：,先把第二阶段根据厂商选择得到结果代入政府得益，再求最优化：,政府的得益函数；,3.5.4 工资奖金制度,模型假设：,1.,雇员,i,(,i,=1,2),的产出函数为，为雇员努力水平，为随机扰动。,服从分布密度，均值为,0,的随机变量。,雇员努力的负效用函数为，且。,2.,产量高的雇员得到高工资，产量低的得到低工资。,3.,两雇员在已知雇主宣布的工资奖金制度下，同时独立选择各自的努力程度。,雇员选择,雇主决定了工资以后，雇员同时决定努力程度：,一阶条件,这是雇员所选择努力程度必须满足的基本条件。,利用条件概率的贝叶斯法则：,代入得：,两雇员情况一样，对努力程度的选择也相同，即：，这样就得到：,这就是两雇员之间的静态博弈纳什均衡。,若进一步假设，那么,雇主选择,由于雇员之间博弈的均衡是对称均衡，因此双方赢得竞赛的机会都是,0.5,，假设雇能得到其他工作机会提供的得益是，则保证雇员接受工作的基本条件是：,此即,“参与约束”。,由于在雇员接受工作的前提下，雇主必然尽可能压低工资，因此约束条件可取等号：,于是得到：,设上述参与约束条件满足，雇主的利润函数为,雇主的期望利润为，因此雇主有如下的最优化问题：,上述雇主决策可转化为促使雇员的努力程度满足：,一阶条件为：,代入两雇员的最优努力水平决定公式得到：,3.6,动态博弈分析的问题和扩展讨论,3.6.1,逆推归纳法的问题,3.6.2,颤抖手均衡和顺推归纳法,3.6.3,蜈蚣博弈问题,3.6.1,逆推归纳法的问题,逆推归纳法只能分析明确设定的博弈问题，要求博弈的结构，包括次序、规则和得益情况等都非常清楚，并且各个博弈方了解博弈结构，相互知道对方了解博弈结构。这些可能有脱实际的可能,逆推归纳法也不能分析比较复杂的动态博弈,在遇到两条路径利益相同的情况时逆推归纳法也会发生选择困难,对博弈方的理性要求太高，不仅要求所有博弈方都有高度的理性，不允许犯任何错误，而且要求所有博弈方相互了解和信任对方的理性，对理性有相同的理解，或进一步有“理性的共同知识”,3.6.2,颤抖手均衡和顺推归纳法,颤抖手均衡,10,0,10,1,2,0,6,2,L,R,U,D,博弈方,2,博,弈,方,1,2,0,10,1,6,2,9,0,(3,3),(2,3),1,2,1,2,L,(0,0),N,T,V,R,M,(1,2),(1,1),S,U,(2,1),顺推归纳法,0,，,0,1,，,3,0,，,0,3,，,1,s,w,w,s,R,D,(2,2),2,1,Van,Damme,博弈,3,，,1,0,，,0,2,，,2,2,，,2,0,，,0,1,，,3,Ds,R,w,s,Dw,博,弈,方,1,博弈方,2,Van,Damme,博弈策略形,3.6.3,蜈蚣博弈问题,该博弈是说明逆推归纳法和博弈分析困难的经典博弈,1,2,1,1,2,1,2,R,(98,98),(97,100),d,r,(99,99),D,R,r,d,(98,101),(100,100),D,R,r,d,(0,3),D,(2,2),R,(1,1),D,思考题,在美国，据说20分钟内能回答出这道题的人，平均年薪在8万美金以上。5个海盗抢得100枚金币后，讨论如何进行公正分配。他们商定的分配原则是：（1）抽签确定各人的分配顺序号码（1，2，3，4，5）；（2）由抽到1号签的海盗提出分配方案，然后5人进行表决，如果方案得到超过半数的人同意，就按照他的方案进行分配，否则就将1号扔进大海喂鲨鱼；（3）如果1号被扔进大海，则由2号提出分配方案，然后由剩余的4人进行表决，当且仅当超过半数的人同意时，才会按照他的提案进行分配，否则也将被扔入大海；（4）依此类推。这里假设每一个海盗都是绝顶聪明而理性，他们都能够进行严密的逻辑推理，并能很理智的判断自身的得失，即能够在保住性命的前提下得到最多的金币。同时还假设每一轮表决后的结果都能顺利得到执行，那么抽到1号的海盗应该提出怎样的分配方案才能使自己既不被扔进海里，又可以得到更多的金币呢？,推理过程,海盗分金,经济学上有个“海盗分金”模型，是说5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1号提出分配方案，然后5人表决，超过半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。,假定“每人海盗都是绝顶聪明且很理智”，那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化,？”,推理过程是这样的,：从后向前推，如果1至3号强盗都喂了鲨鱼，只剩4号和5号的话，5号一定投反对票让4号喂鲨鱼，以独吞全部金币。所以，4号惟有支持3号才能保命。,推理过程,3号知道这一点，就会提出“100，0，0”的分配方案，对4号、5号一-_-!不拔而将全部金币归为已有，因为他知道4号一无所获但还是会投赞成票，再加上自己一票，他的方案即可通过。不过，2号推知3号的方案，就会提出“98，0，1，1”的方案，即放弃3号，而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利，他们将支持他而不希望他出局而由3号来分配。这样，2号将拿走98枚金币。,推理过程,同样，2号的方案也会被1号所洞悉，1号并将提出（97，0，1，2，0）或（97，0，1，0，2）的方案，即放弃2号，而给3号一枚金币，同时给4号（或5号）2枚金币。由于1号的这一方案对于3号和4号（或5号）来说，相比2号分配时更优，他们将投1号的赞成票，再加上1号自己的票，1号的方案可获通过，97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了！答案是：1号强盗分给3号1枚金币，分给4号或5号强盗2枚，自己独得97枚。分配方案可写成（97，0，1，2，0）或（97，0，1，0，2）。,推理过程,“,海盗分金”其实是一个高度简化和抽象的模型，体现了博弈的思想。在“海盗分金”模型中，任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么，并用最小的代价获取最大收益，拉拢“挑战者”分配方案中最不得意的人们。企业中的一把手，在搞内部人控制时，经常是抛开二号人物，而与会计和出纳们打得火热，就是因为公司里的小人物好收买,。1号看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。这不正是全球化过程中先进国家的先发优势吗？而5号，看起来最安全，没有死亡的威胁，甚至还能坐收渔人之利，却因不得不看别人脸色行事而只能分得一小杯羹。,推理过程,不过，模型任意改变一个假设条件，最终结果都不一样。而现实世界远比模型复杂,。首先，现实中肯定不会是人人都“绝对理性”。回到“海盗分金”的模型中，只要3号、4号或5号中有一个人偏离了绝对聪明的假设，海盗1号无论怎么分都可能会被扔到海里去了。所以，1号首先要考虑的就是他的海盗兄弟们的聪明和理性究竟靠得住靠不住，否则先分者倒霉。,推理过程,如果某人偏好看同伙被扔进海里喂鲨鱼。果真如此，1号自以为得意的方案岂不成了自掘坟墓！再就是俗话所说的“人心隔肚皮”。由于信息不对称，谎言和虚假承诺就大有用武之地，而阴谋也会像杂-_-!般疯长，并借机获益。如果2号对3、4、5号大放烟幕弹，宣称对于1号所提出任何分配方案，他一定会再多加上一个金币给他们。这样，结果又当如何？,推理过程,通常，现实中人人都有自认的公平标准，因而时常会嘟嚷：“谁动了我的奶酪？”可以料想，一旦1号所提方案和其所想的不符，就会有人大闹当大家都闹起来的时候，1号能拿着97枚金币毫发无损、镇定自若地走出去吗？最大的可能就是，海盗们会要求修改规则，然后重新分配。想一想二战前的希特勒德国吧！而假如由一次博弈变成重复博弈呢？比如，大家讲清楚下次再得100枚金币时，先由2号海盗来分然后是3号,这颇有点像美国总统选举，轮流主政。说白了，其实是民主形式下的分赃制,。最可怕的是其他四人形成一个反1号的大联盟并制定出新规则：四人平分金币，将1号扔进大海这就是阿式的革命理想：高举平均主义的旗帜，将富人扔进死亡深渊,制度规范行为，理性战胜愚昧,！,

展开阅读全文

博弈论：第三章 完全且完美信息动态博弈.ppt

博弈论：第三章完全且完美信息动态博弈.ppt