收藏 分销(赏)

第二--完全信息动态博弈.pptx

上传人:胜**** 文档编号:870645 上传时间:2024-04-01 格式:PPTX 页数:112 大小:1.77MB
下载 相关 举报
第二--完全信息动态博弈.pptx_第1页
第1页 / 共112页
第二--完全信息动态博弈.pptx_第2页
第2页 / 共112页
第二--完全信息动态博弈.pptx_第3页
第3页 / 共112页
第二--完全信息动态博弈.pptx_第4页
第4页 / 共112页
第二--完全信息动态博弈.pptx_第5页
第5页 / 共112页
点击查看更多>>
资源描述

1、.1 完全且完美信息动态博弈一、动态博弈的表述(初步描述)一、动态博弈的表述(初步描述)1、基本要求、基本要求 (1)局中人局中人 I=1,2,,n (2)局中人的)局中人的行动次序行动次序(有先后之分),(有先后之分),为行为行 动集动集 (3)每次行动时局中人所进行的)每次行动时局中人所进行的选择选择 (4)外生事件的)外生事件的概率分布概率分布 (5)局中人在选择行动时所了解的)局中人在选择行动时所了解的信息信息 (6)支付函数支付函数2、博弈树(扩展型示意)例:仿冒博弈、博弈树(扩展型示意)例:仿冒博弈ABAB制止制止(-2,5)不仿冒不仿冒(0,10)不仿冒不仿冒仿冒仿冒制止制止不制

2、止不制止仿冒仿冒(2,2)(10,4)(5,5)3、完全且完美信息、完全且完美信息不制止不制止二、逆向归纳法二、逆向归纳法1、二人动态博弈的逆向归纳法二人动态博弈的逆向归纳法 I=1,2,局中人,局中人1先行动,先行动,2根根据据1的行动选择行动的行动选择行动收益函数收益函数 局中人局中人2 的选择:的选择:(反映函数)(反映函数)局中人局中人1知道知道2 会根据会根据1的选择而做出选择的选择而做出选择 局中人局中人1的选择:的选择:从而得到这一动态博弈的逆向递归解从而得到这一动态博弈的逆向递归解 2、有限(行动)动态博弈的逆推法及可信性问题、有限(行动)动态博弈的逆推法及可信性问题 仿冒博弈

3、仿冒博弈 开金矿博弈(三个版本),可信性开金矿博弈(三个版本),可信性 市场阻挠博弈市场阻挠博弈案例:开金矿博弈版本版本1 1:无法律保障开金矿博弈:无法律保障开金矿博弈不借借还不还(1,0)P1P2(2,2)(0,4)案例:开金矿博弈版本版本2 2:法律保障不足的开金矿博弈:法律保障不足的开金矿博弈不借借还不还起诉放弃(1,0)P1P2P1(2,2)(-1,0)(0,4)案例:开金矿博弈版本版本3 3:法律保障充足的开金矿博弈:法律保障充足的开金矿博弈不借借还不还起诉放弃(1,0)P1P2P1(2,2)(1,0)(0,4)潜在进入者进入成本200万元 (1)进入不进入0,3000垄断者(2)

4、默许900,1100商战-200,600阻止市场进入博弈的扩展形式u二、二、Stackelberg双头垄断模型双头垄断模型 1、模型及求解、模型及求解(1)企业)企业1选择产量选择产量(2)企业)企业2观察到观察到 ,然后选择产量,然后选择产量 (固定成本(固定成本c为为0)企业企业2对企业对企业1的最优策略反应的最优策略反应 满足:满足:企业企业1的产量选择满足:的产量选择满足:最优总产量:最优总产量:2、S产量与古诺产量的比较产量与古诺产量的比较(1)古诺产量)古诺产量 从而从而 在在S模型中模型中 (2)在古诺模型中)在古诺模型中 ,在,在S模型中模型中 先动优势先动优势:信息占优者往往

5、不利。信息占优者往往不利。3、讨论、讨论u三、劳资博弈(里昂节夫三、劳资博弈(里昂节夫1944)博弈双方:博弈双方:工会工会1,企业,企业2 行动次序:行动次序:(1)工会给出工资水平)工会给出工资水平W;(2)企业观察到(并接受)企业观察到(并接受)W,随后选,随后选 择雇佣人数择雇佣人数L支付支付:工会的效用函数工会的效用函数:企业的利润函数企业的利润函数:求解求解(逆推法逆推法):由:由 得得 可解得企业的反映函数可解得企业的反映函数 由由 ,从而,从而 于是于是 为逆推归纳解。为逆推归纳解。u三、讨价还价博弈(序贯谈判,鲁宾斯坦三、讨价还价博弈(序贯谈判,鲁宾斯坦19821982)1、

6、三回合讨价还价、三回合讨价还价设局中人甲、乙就如何分享设局中人甲、乙就如何分享10000美元现金进行美元现金进行 谈判,谈判规则如教材所述。贴现因子谈判,谈判规则如教材所述。贴现因子(1)无贴现因子时的博弈树(无限策略,下图)无贴现因子时的博弈树(无限策略,下图 1为示意性博弈树)为示意性博弈树)(2)由贴现因子时的博弈树(图)由贴现因子时的博弈树(图2)逆推归纳法逆推归纳法:(1)第三回合:各自收益)第三回合:各自收益 ,(定值)(定值)(2)第二回合:)第二回合:2为使为使1接受(第二回合就结束),接受(第二回合就结束),需使第二回合需使第二回合1的收益大于等于第三回合人的收益,的收益大于

7、等于第三回合人的收益,且尽可能使自身收益极大化。且尽可能使自身收益极大化。121接受接受拒绝,出S图1 图1 121接受拒绝,出S接受逆推归纳法逆推归纳法:(1)第三回合:各自收益)第三回合:各自收益(定值)(定值):,(2)第二回合:)第二回合:2为使为使1接受(第二回合接受(第二回合就结束),需使第二回合就结束),需使第二回合1的收益大于等于的收益大于等于第三回合人的收益,且尽可能使自身收益第三回合人的收益,且尽可能使自身收益极大化。极大化。应满足应满足 (,取等号使,取等号使2收益最大)收益最大)即应有即应有 ,人,人2的收益为的收益为显然,显然,即人即人2的收益在第二回合结束为上。的收

8、益在第二回合结束为上。(3)第一回合:人)第一回合:人1知道自己第三回合的收益知道自己第三回合的收益,也,也知道第二回合人知道第二回合人2出价。出价。为使博弈在第一回合结束,为使博弈在第一回合结束,需满足:需满足:从而从而 ,此时,此时2的收益的收益 等于第二回合的收益等于第二回合的收益比较:比较:(0 1)逆向归纳解:逆向归纳解:注:设S=10000,此时最优解此时最优解:双方收益的比例取决于双方收益的比例取决于 :(1),即人,即人2达达到最大到最大 (2),越大,越大,越大,人越大,人1的收益减少的收益减少 (3),越大,越大,越小,人越小,人1 的收益增加的收益增加 从而当从而当 时,

9、乙的讨价还价的筹码是与时,乙的讨价还价的筹码是与甲拖延时间。甲拖延时间。u二、无限回合讨价还价博弈二、无限回合讨价还价博弈(shaked 1984)思路要点)思路要点:对一个无限回合讨价还价博弈来讲,从第三回合对一个无限回合讨价还价博弈来讲,从第三回合开始,还是从第一回合开始结果都是相同的。开始,还是从第一回合开始结果都是相同的。求解过程:假设整个博弈有一个逆向递推解求解过程:假设整个博弈有一个逆向递推解(S,10000-S),),即在第一回合甲出价即在第一回合甲出价S,乙接受使乙接受使双方的收益。双方的收益。由由shaked的思路,解的思路,解(S,10000-S)也是从第三回也是从第三回合

10、开始博弈的结果。即第三回合为甲出价合开始博弈的结果。即第三回合为甲出价S,乙乙接受,双方收益接受,双方收益(S,10000-S)再把上述第三回合理解成从第一阶段开始的无限再把上述第三回合理解成从第一阶段开始的无限回合博弈的第三回合回合博弈的第三回合,由于甲在第三回合出价是,由于甲在第三回合出价是最终出价,故可理解为三回合强制性讨价还价博最终出价,故可理解为三回合强制性讨价还价博弈,由前面的讨论:弈,由前面的讨论:甲在第一回合出价甲在第一回合出价 双方收益双方收益=从而:从而:解得:解得:,为逆向递推解为逆向递推解2 2 完全非完美信息两阶段博弈完全非完美信息两阶段博弈一一、模型表述、模型表述

11、特点:特点:每阶段中存在同时行动(注:每阶段中存在同时行动(注:“行动行动”与策略是与策略是不同的概念)不同的概念)基本模型:基本模型:第一阶段:局中人第一阶段:局中人1与与2同时选择行动同时选择行动,(行动集)(行动集)(i=1,2)第二阶段:局中人第二阶段:局中人3与与4观察到第一阶段的结果观察到第一阶段的结果 ()然后各自同时选择行动)然后各自同时选择行动 (i=3,4)支付函数:支付函数:(i=1,2,3,4)应用背景:关税及国际市场的不完全竞争应用背景:关税及国际市场的不完全竞争 求解:求解:逆向归纳法逆向归纳法第二阶段:参与人第二阶段:参与人3与与4,按照人,按照人1与与2的行动的

12、行动 所作的最优选择所作的最优选择 为:为:,第一阶段:参与人第一阶段:参与人1与与2知道知道3与与4 的反应函数,据的反应函数,据此作出的选择,此时:此作出的选择,此时:(i=1,2)得得 为该两为该两 阶段博弈的子阶段博弈的子博弈精炼解。博弈精炼解。由二、间接融资和挤兑风险二、间接融资和挤兑风险 设一家银行放贷2万元,以20%的年利润吸引客户存款,设两客户各有1万元资金,若两客户都存款,银行向企业提供1年期贷款。第一阶段:客户2不存 存 客户1 不存存1 ,11,11 ,1下下阶段段第二阶段提前 到期 提前到期第二阶段有两个NE:(提前,提前),(到期,到期)后一个NE为上策均衡(帕累托最

13、优)(低效率情形也会出现)0.8,0.81,0.60.6,11.2,1.2第一阶段:(第一阶段:(1)若第二阶段的第一个)若第二阶段的第一个NE出现,第出现,第 一阶段化为:一阶段化为:不存不存 存存不存不存 存存此时此时NE:(不存,不存):(不存,不存)(2)第二阶段的第二个)第二阶段的第二个NE出现,第一阶段化为出现,第一阶段化为:不不 存存 不不 存存1 ,11 ,11 ,10.8 ,0.81 ,11 ,11 ,11.2 ,1.2此时此时NE:(不存,不存)及(存,存)(上策均衡):(不存,不存)及(存,存)(上策均衡)结论:不会出现挤兑对风险结论:不会出现挤兑对风险发生挤兑得原因分析

14、:发生挤兑得原因分析:u三、最优关税问题三、最优关税问题局中人:局中人:国家国家1,国家,国家2,企业,企业1,企业,企业2行动:行动:,行动顺序行动顺序第一阶段:国家第一阶段:国家1与国家与国家2的静态博弈(关于税率的静态博弈(关于税率 )第二阶段:企业第二阶段:企业1与企业与企业2的静态博弈(的静态博弈(与与 ):国内需求,国内需求,:出口量出口量需求函数:需求函数:基本假定:(基本假定:(1)两企业的边际成本同为常数)两企业的边际成本同为常数c (2)无固定成本)无固定成本企业的收益:(i=1,2)(可决定的量)分解表达:国内市场:(i=1,2)(1)国外市场:(i=1,2)(2)国家i

15、的收益=企业的利润+关税+消费者剩余消费者剩余 c(注:为i国总需求)(3)计算:逆推法 第一步:由(1)、(2)得:(i=1,2;j=2,1)(4)(i=1,2;j=2,1)(5)由(4),(5)(共4个方程)联立得:(6)(i=1,2;j=2,1)(7)在给定 ,两企业的(静态)NE产量第二步 将(6),(7)代入(3)得:由:(i=1,2)(8)将(8)代入(6)、(7)得每国企业的总产量:四、工作竞赛(工资奖金制度)四、工作竞赛(工资奖金制度)1、基本假定、基本假定(1)一个雇主有两个雇员。雇员一个雇主有两个雇员。雇员i的产出函数的产出函数 其中其中 为努力水平。为努力水平。为为R.V

16、满足满足 相互独立相互独立 已知雇员付出努力具有负效用函数已知雇员付出努力具有负效用函数g(e),满满足足 (严格凸)(严格凸)(2)雇员的产出可观察而他们的努力水平无法观雇员的产出可观察而他们的努力水平无法观察到。雇主根据产出为工人支付报酬,产出水平察到。雇主根据产出为工人支付报酬,产出水平高的工人获得工资高的工人获得工资 ,否则获得,否则获得 。工人的收益函数工人的收益函数:雇主的收益函数雇主的收益函数:(3)两雇员同时独立选择各自努力程度两雇员同时独立选择各自努力程度2、求解:、求解:(1)第二阶段:雇员选择努力水平)第二阶段:雇员选择努力水平 雇员雇员i获得获得 的概率:的概率:雇员雇

17、员i获得获得 的概率:的概率:其平均支付:其平均支付:其一阶条件:其一阶条件:即:(i=1,2;j=1,2)注意:=从而一阶条件化为(1)(导数进入积分号)由对称性,其NE解代入(1)得:(2)(反应函数)(反应函数)从从(2)知,知,越大(即奖励越高)越大(即奖励越高),越越 大(因为大(因为 )从而从而 越大,即雇员的积极性越高。越大,即雇员的积极性越高。(2)第一阶段(雇主选择:)第一阶段(雇主选择:)在对称在对称NE中,每个工人获胜的概率为中,每个工人获胜的概率为1/2,即:,即:于是雇主的收益:于是雇主的收益:且工人的参与约束:且工人的参与约束:(最低工资水平)(最低工资水平)上式取

18、等号得:上式取等号得:(3)然而:然而:故雇主的最优选择为:故雇主的最优选择为:即即 由由 得得 (4)由(3),(4)得:求得(3)设:再由33、委托、委托-代理理论代理理论一、委托代理关系一、委托代理关系1、信息结构、信息结构完全信息:完全信息:各博弈方相互了解得益情况(收益函各博弈方相互了解得益情况(收益函数),即收益函数是数),即收益函数是共同知识共同知识。完美信息:完美信息:各博弈方对自己选择前的博弈过程完各博弈方对自己选择前的博弈过程完全了解(动态),博弈过程是全了解(动态),博弈过程是共同知识共同知识。信息不对称:信息不对称:各博弈方对上述信息了解程度不同,各博弈方对上述信息了解

19、程度不同,即某些局中人拥有但另一些局中人不拥有的信息。即某些局中人拥有但另一些局中人不拥有的信息。2、委托人及代理人、委托人及代理人委托人:委托人:不拥有私人信息的一方不拥有私人信息的一方代理人:代理人:拥有私人信息的一方拥有私人信息的一方3、委托人与代理人的博弈关系:二人博弈、委托人与代理人的博弈关系:二人博弈核心问题:委托人设计一个激励合同,以诱使核心问题:委托人设计一个激励合同,以诱使代理人从自身利益出发,选择对委托人最有利代理人从自身利益出发,选择对委托人最有利的行动。的行动。难点:委托人对代理人的监督。难点:委托人对代理人的监督。例:流水线装配工人的工作比较容易监督,而例:流水线装配

20、工人的工作比较容易监督,而 外派采购员的工作就难以监督。外派采购员的工作就难以监督。两类情况:两类情况:(1)工作成果完全取决于努力程度:不存在监)工作成果完全取决于努力程度:不存在监 督(如计件制)。督(如计件制)。(2)工作成果不完全取决于努力程度:监督问)工作成果不完全取决于努力程度:监督问 题无法避免。题无法避免。如:如:律师打官师律师打官师;商店销售额。商店销售额。二、委托二、委托代理模型代理模型1、无不确定性的委托、无不确定性的委托代理模型代理模型 表示代理人的努力程度,也表示代理人努力后表示代理人的努力程度,也表示代理人努力后 带来的负效用水平带来的负效用水平 表示代理人努力工作

21、,表示代理人努力工作,表示代理人偷懒。表示代理人偷懒。为产出函数为产出函数,为代理人的报酬为代理人的报酬如:如:为代理人努力时的产出,为代理人努力时的产出,为代理人偷懒为代理人偷懒时的产出。时的产出。基本假设基本假设:代理人的产出是努力程度的确定函:代理人的产出是努力程度的确定函 数数 模型的扩展形式(树)模型的扩展形式(树)2、博弈树(扩展型示意、博弈树(扩展型示意 )122不委托不委托(R(0),0)偷懒拒绝拒绝努力努力接受接受委托委托(R(E)-w(E),w(E)-E)(R(S)-w(S),w(S)-S)(R(0),0)信息结构信息结构:完全且完美信息:完全且完美信息 无不确定性的委托无

22、不确定性的委托-代理模型代理模型代理人代理人努力的激励相容约束:努力的激励相容约束:(1)即:即:代理人偷懒的激励相容约束:代理人偷懒的激励相容约束:(2)显然只要显然只要 代理人必选择偷代理人必选择偷懒懒对对(1),),代理人的代理人的参与约束参与约束:对对(2),),代理人的代理人的参与约束参与约束:对对(1),),委托人的委托人的委托条件委托条件:对对(2),),委托人的委托人的委托条件委托条件:两种情况下的两种情况下的子博弈完美子博弈完美NE2、有不确定性但可监督的委托、有不确定性但可监督的委托代理模型代理模型基本假设:基本假设:(1)代理人的努力和成果之间不完全)代理人的努力和成果之

23、间不完全 一致,即产出有随一致,即产出有随机性;机性;(2)代理人的努力过程可监督。)代理人的努力过程可监督。合同设计合同设计:根据代理人的工作(努力)情况而非工作成果:根据代理人的工作(努力)情况而非工作成果支付报酬,此时支付报酬,此时风险风险完全由委托人承担。完全由委托人承担。标准模型标准模型(努力的)(努力的)激励相容激励相容约束:约束:参与参与约束:约束:委托条件委托条件(期望值):(期望值):博弈树(扩展型)博弈树(扩展型)122不委托不委托(0,0)偷懒拒绝拒绝努力努力接受接受委托委托(20-w(E),w(E)-E)(20-w(S),w(S)-S)有不确定性但可监督的委托有不确定性

24、但可监督的委托-代理模型代理模型00(0,0)高产(高产(0.1)低产(低产(0.1)低产(低产(0.9)(10-w(E),w(E)-E)(10-w(S),w(S)-S)高产(高产(0.9)3、有不确定性且不可监督的委托、有不确定性且不可监督的委托代理模型代理模型基本假设:基本假设:(1)产出有随机性(代理人工作成果)产出有随机性(代理人工作成果 不确定)不确定)(2)代理人的努力过程不可监督)代理人的努力过程不可监督,如推销员。,如推销员。合同设计:根据代理人的工作成果支付报酬,合同设计:根据代理人的工作成果支付报酬,此时风险完全由代理人承担。此时风险完全由代理人承担。代理人的报酬函数代理人

25、的报酬函数 ,R为产出为产出(而非努力程度)。(而非努力程度)。激励相容约束激励相容约束:(期望值):(期望值)参与约束参与约束:(期望值):(期望值)委托条件:委托条件:注:关于风险偏好的问题注:关于风险偏好的问题博弈树(扩展型)博弈树(扩展型)122不委托不委托(0,0)偷懒拒绝拒绝努力努力接受接受委托委托(20-w(20),w(20)-E)(20-w(20),w(20)-S)有不确定性且不可监督的委托有不确定性且不可监督的委托-代理模型代理模型00(0,0)高产(高产(0.1)低产(低产(0.1)低产(低产(0.9)(10-w(10),w(10)-E)(10-w(10),w(10)-S)

26、高产(高产(0.9)4、选择连续报酬和连续努力水平的委托选择连续报酬和连续努力水平的委托代理模型代理模型 基本假设:基本假设:(1)努力成果不确定且不可监督,但知道其概率)努力成果不确定且不可监督,但知道其概率 分布;分布;(2)委托人可以选择报酬函数(薪酬制度);)委托人可以选择报酬函数(薪酬制度);(3)代理人的努力水平是一个连续区间(不限于)代理人的努力水平是一个连续区间(不限于“努力努力”,“不努力不努力”两种情况)两种情况)(4)代理人有正值的机会成本)代理人有正值的机会成本 ;(5)代理人努力的负效用是努力水平的单增凸函数)代理人努力的负效用是努力水平的单增凸函数 ;(6)产出水平

27、)产出水平 是随机变量(成果不确定)即对于给定的是随机变量(成果不确定)即对于给定的 ,具有确定的概率分布;具有确定的概率分布;(7)代理人的报酬由产出)代理人的报酬由产出 决定,即决定,即 (因委托(因委托 人人不知道不知道 ););注:注:与与 有关,但随机性由有关,但随机性由“自然自然”决定。决定。核心问题:核心问题:激励机制设计,即委托人如何设计薪酬激励机制设计,即委托人如何设计薪酬 :,使其满足参与约束及激励相容约束,进而,使其满足参与约束及激励相容约束,进而达到委托人的利益与代理人的利益完全一致。达到委托人的利益与代理人的利益完全一致。委托人的利益委托人的利益:代理人的利益代理人的

28、利益:参与约束参与约束:代理人接受委托得到的利益不小于机:代理人接受委托得到的利益不小于机 会成本,会成本,即:即:在代理人接受委托的前提下,委托人希望付出的在代理人接受委托的前提下,委托人希望付出的 报酬最报酬最小,即:小,即:从而委托人的收益函数为:从而委托人的收益函数为:(1)从方程从方程(1)中求得中求得 为最符合委托人利益的代理人的为最符合委托人利益的代理人的努力水平。努力水平。然而,在满足参与约束的条件下,代理人愿意接然而,在满足参与约束的条件下,代理人愿意接 受工作受工作但努力水平未必是但努力水平未必是 ,欲使代理人选择欲使代理人选择 ,必须符,必须符合自身的最大利益,即对任何努

29、力水平合自身的最大利益,即对任何努力水平 ,(2)(2)即为该模型的激励相容约束。即为该模型的激励相容约束。若努力水平若努力水平 满足满足(1),(),(2)意味着委托代理双方意味着委托代理双方利益完全一致,即代理人的行为符合委托人的最大利益。利益完全一致,即代理人的行为符合委托人的最大利益。案例案例 委托人:委托人:店主店主 代理人:代理人:店员店员设产出设产出 是一个线性随机函数是一个线性随机函数 店员的收益店员的收益 W=工资工资+奖金(固定工资奖金(固定工资+利润分成)利润分成)店主收益店主收益 为纯利润为纯利润 店主目标店主目标 或或 逆推法思路:逆推法思路:(1)(店员的最优选择)

30、(2)(店主的最优选择)从而从而 本例中本例中 关键问题:店主如何决定关键问题:店主如何决定 与与 的水平,以使这种的水平,以使这种工资制度成为有效激励工资制度成为有效激励 求解:求解:1、店员的选择、店员的选择 参与约束:参与约束:即:即:设店员是风险中性者,得:设店员是风险中性者,得:(1)设设(1)已得到满足(即店员已接受工作)已得到满足(即店员已接受工作)店员希望利益最大化(其实质是激励相容约束)店员希望利益最大化(其实质是激励相容约束)(2)(注:对不同的(注:对不同的 ,店主的努力水平不同)即:,店主的努力水平不同)即:2、店主的选择店主的选择:满足满足参与约束参与约束的下限的下限

31、:即:即:(3 3)(取期望)(取期望)此为符合店主最大利益的店员此为符合店主最大利益的店员 的努力水平的努力水平将将 代入代入(2 2)得得 即即由由(3 3)(租赁(租赁承包制)承包制)(注;(注;R是是 )3、激励相容的验证、激励相容的验证(代理人风险中性)(代理人风险中性)故故 是激励相容设计是激励相容设计即按即按 的努力水平,代理人利益最大即的努力水平,代理人利益最大即:总结:总结:(1)按代理人的努力水平付酬,委托人承担全)按代理人的努力水平付酬,委托人承担全部风险部风险(2)按代理人工作成果付酬,代理人承担全部)按代理人工作成果付酬,代理人承担全部 风险风险问题:如何让双方都承担

32、风险?问题:如何让双方都承担风险?三、一般委托三、一般委托代理模型代理模型随机变量的数学期望 设 产出,其中为外生(随机变量)(从而 为随机变量)合同(工资制度)可观察结果 (如产出)代理人效用为:委托人的效用函数:(随机变量)(即 的分布密度)从而 (1)委托人的问题:使Ev最大化 但受到如下约束:(1)代理人参与约束:即:(2)代理人激励相容约束:努力水平使 即:(努力集)4、重复博弈重复博弈现实背景:现实背景:各博弈方存在长期的合作与竞各博弈方存在长期的合作与竞 争关系。争关系。一、基本概念一、基本概念1、给定博弈、给定博弈 (动态或静态),重复进行(动态或静态),重复进行 次次 ,并且

33、在,并且在每次重复每次重复 之前各博弈方都能观察到结果,此过程为之前各博弈方都能观察到结果,此过程为 的的 次重复博弈,记为次重复博弈,记为 ,而,而 称为称为 的原博的原博弈或弈或 阶段博弈。阶段博弈。2、分类、分类 3、策略、子博弈和均衡路径、策略、子博弈和均衡路径策略:策略:或或 的一个完整行动计划的一个完整行动计划子博弈子博弈:从某阶段开始,此后所有阶段的重复博:从某阶段开始,此后所有阶段的重复博 弈构成一个动态(子)博弈。弈构成一个动态(子)博弈。均衡路径均衡路径:均衡策略组合所对应的路径,由每个阶段博:均衡策略组合所对应的路径,由每个阶段博弈双方的行动组合串联而成。弈双方的行动组合

34、串联而成。4、得益(支付)、得益(支付)总得益:博弈方各次重复得益总和。总得益:博弈方各次重复得益总和。平均得益:总得益平均得益:总得益/重复次数(有限)重复次数(有限)令令 为一个完全信息静态博为一个完全信息静态博 弈,对弈,对 局中人(一次性博局中人(一次性博弈)弈)的收益函数的收益函数 为:为:(1)贴现率贴现率:设市场利率为设市场利率为 ,将数量,将数量 的资金存入的资金存入 银行,银行,经过时间经过时间 后变为后变为 。反之,时刻。反之,时刻 有资金有资金,问这笔钱在时刻,问这笔钱在时刻 的现值为多少?的现值为多少?设现值为设现值为 ,则,则 于是于是 称称 为为贴现率贴现率或折现因

35、子或折现因子 (显然(显然 )贴现率反映资金的时间价值贴现率反映资金的时间价值(2)的得益的得益设设 中每次得益为中每次得益为 不考虑资金的时间价值的总得益:不考虑资金的时间价值的总得益:考虑资金的时间价值的总得益:考虑资金的时间价值的总得益:(3)的得益(必须考虑贴现问题)的得益(必须考虑贴现问题),通常记通常记(4)平均得益)平均得益 若若 作为重复博弈(作为重复博弈(有限或无限)各阶段的得益,有限或无限)各阶段的得益,能能产生与产生与 相同的现值相同的现值 ,称,称 为为 的平均得的平均得益。益。对对 (有限):有限):即即 对对 5、随机停止及贴现率随机停止及贴现率 在重复博弈中,每阶

36、段用抽签方式决定是否停止,设停在重复博弈中,每阶段用抽签方式决定是否停止,设停止重复的概率为止重复的概率为 ,重复下去的概率为,重复下去的概率为第一阶段得益为第一阶段得益为 ,进入第二阶段的得益为,进入第二阶段的得益为 ,第,第一阶段停止,第二阶段得益为一阶段停止,第二阶段得益为0 第二阶段的期望收益为第二阶段的期望收益为 特别当特别当 0Pp1-p5、随机停止及贴现率随机停止及贴现率 由于在重复博弈中,各阶段是否停止是相互独立的,每由于在重复博弈中,各阶段是否停止是相互独立的,每次停止重复的概率为次停止重复的概率为 ,重复下去的概率为,重复下去的概率为所以博弈进入第三阶段的概率为所以博弈进入

37、第三阶段的概率为 ,得益,得益为为 ,第二阶段停止,第三阶段得益为,第二阶段停止,第三阶段得益为0 于是第三阶段(贴现的)期望收益为于是第三阶段(贴现的)期望收益为 t=1,2,3,总收益(期总收益(期望值)望值)新的贴现因子新的贴现因子0P62二、有限次重复博弈二、有限次重复博弈二、有限次重复博弈二、有限次重复博弈1、G有唯一有唯一NE时的时的G(T)例:例:两阶段囚徒困境两阶段囚徒困境 甲甲 乙乙L1R1L2R21 ,14 ,40 ,5 5 ,0 阶段博弈(原博弈)有惟一的阶段博弈(原博弈)有惟一的NE(L1,L2)63求解(求解(求解(求解(逆推法)逆推法)逆推法)逆推法)第二阶段:第二

38、阶段:双方最优的选择双方最优的选择(NE)为为 (L1,L2),得益得益(1,1)第一阶段:归结为一次性博弈第一阶段:归结为一次性博弈 (将(将(1,1)加到每个人)加到每个人的收益上)的收益上)NE 仍为仍为(L1,L2)子博弈精炼解:每阶段都选择子博弈精炼解:每阶段都选择(L1,L2)。总收益如下总收益如下L1R1L2R22 ,25 ,51 ,6 6 ,1 一般表述(不考虑折现因子)一般表述(不考虑折现因子)第二阶段:第二阶段:由由 得得NE 以及以及第一阶段:由第一阶段:由易知:子博弈精炼易知:子博弈精炼NE(或子博弈精炼解):每阶(或子博弈精炼解):每阶 段都选择段都选择 定理定理:如

39、果原博弈:如果原博弈G有唯一的有唯一的NE(纯策略),(纯策略),则对任意有限则对任意有限 的的 有唯一的子博弈精有唯一的子博弈精炼炼NE:G 的的NE结果在每一阶段重复进行。结果在每一阶段重复进行。2、两人零和博弈两人零和博弈 对应的对应的 (以(以T=2为为例)例)猜硬币博弈猜硬币博弈特点:特点:无纯策略无纯策略NE 的混合策略的混合策略NE:第二阶段:第二阶段:NE:,此时,此时第一阶段:将第一阶段:将NE下的收益下的收益 加到加到 的支付矩的支付矩阵阵NE仍为仍为 一般表述一般表述第二阶段第二阶段 由由第二阶段第二阶段 由:由:子博弈精炼解子博弈精炼解:每阶段都选择每阶段都选择定理定理

40、:为二人零和博弈,则为二人零和博弈,则 唯一的子博弈唯一的子博弈精炼精炼NE为:各博弈方始终选择为:各博弈方始终选择G的混合策略的混合策略NE。注:对注:对 中各博弈方的所有得益各自加上相同的中各博弈方的所有得益各自加上相同的值不会改变博弈的均衡结果。值不会改变博弈的均衡结果。3 3、中中NENE不唯一时的不唯一时的 的均衡解(的均衡解()分析如图分析如图2.3.3()所示的博弈)所示的博弈 67二、有限次重复博弈二、有限次重复博弈二、有限次重复博弈二、有限次重复博弈两阶段囚徒模型困境的扩展两阶段囚徒模型困境的扩展 甲甲 乙乙L1R1L2R21 ,14 ,40 ,5 5 ,0 阶段博弈的阶段博

41、弈的NE不唯一:不唯一:(L1,L2)()(R1,R2)3 ,3 0 ,0 0 ,0 0 ,0 0 ,0M1M2特点 (1)中有两个纯策略中有两个纯策略NE:(2)两次重复博弈的纯策略路径为两次重复博弈的纯策略路径为 种种 之多,其中的子博弈精炼之多,其中的子博弈精炼NE路径也很多路径也很多 如:如:两阶段都采用两阶段都采用 ,两阶段都采用,两阶段都采用第一阶段采用第一阶段采用 ,第二阶段采用,第二阶段采用 第一阶段采用混合策略第一阶段采用混合策略NE,第二阶段采用,第二阶段采用 等等等等.问题问题:(1)究竟哪一个子博弈精炼)究竟哪一个子博弈精炼NE结果会出现?结果会出现?(2)均衡路径中,

42、是否包含原博弈)均衡路径中,是否包含原博弈G的非的非NE?考虑如下的策略组合(一种考虑如下的策略组合(一种触发策略触发策略)(1)第一阶段选择结果第一阶段选择结果 ,则第二阶段选择,则第二阶段选择 第一阶段选择结果第一阶段选择结果非非 ,则第二阶段选择,则第二阶段选择 即博弈双方各自的策略均为:即博弈双方各自的策略均为:第一阶段选第一阶段选 ,若第一阶段结果为,若第一阶段结果为 ,则第二阶,则第二阶 段选段选 若第一阶段结果为非若第一阶段结果为非 ,则第二阶段选择则第二阶段选择由逆推法:由逆推法:第二阶段:第二阶段:第一阶段:第一阶段:于是于是 成为第一阶段的最优选择成为第一阶段的最优选择 在

43、上述策略下,博弈在上述策略下,博弈 化为图化为图2.3.4()的一次性静态博弈。显)的一次性静态博弈。显然然 是该博弈的是该博弈的NE之一。(总共三个之一。(总共三个NE)于是策略组合于是策略组合(1)是是 的子博弈精炼的子博弈精炼NE,表示为,表示为 偏离合作的博弈分析(可能性):合作解的出现是一个小概率事偏离合作的博弈分析(可能性):合作解的出现是一个小概率事件。合作解的不稳定性,原于件。合作解的不稳定性,原于触发策略的可信性:惩罚惩罚者?触发策略的可信性:惩罚惩罚者?(重新谈判)策略(重新谈判)策略:不管第一阶段选择什么行动,第二阶段总是选:不管第一阶段选择什么行动,第二阶段总是选择择将

44、将 加到加到 的每格上,的每格上,为非为非NE,即第一阶段选择,即第一阶段选择 的动机不复存在,局中人的动机不复存在,局中人 对对 的最优反应是的最优反应是 而非而非71二、有限次重复博弈二、有限次重复博弈二、有限次重复博弈二、有限次重复博弈两阶段囚徒模型困境的扩展两阶段囚徒模型困境的扩展触发策略的收益之和触发策略的收益之和 甲甲 乙乙L1R1L2R21+1 ,1+14+3 ,4+30+1 ,5+1 5+1,0+1 触发策略下触发策略下2阶段重复博弈:阶段重复博弈:3个个NE 3+1 ,3+1 0+1,0+1 0+1 ,0+1 0+1 ,0=1 0+1 ,0+1M1M2解决方案解决方案(1)加

45、强可信性(加强可信性(拒绝重新谈判拒绝重新谈判)(2)扩大行动集,增加扩大行动集,增加NE的个数的个数思路:思路:拒绝重新谈判(因拒绝谈判比接受谈判有更好的收益)图拒绝重新谈判(因拒绝谈判比接受谈判有更好的收益)图2.3.5中有中有4个个NE博弈双方选择如下触发策略博弈双方选择如下触发策略博弈方博弈方1:第一阶段第一阶段 ,若第一阶段结果,若第一阶段结果 出现,到第二阶段出现,到第二阶段选选 ,否则第二阶段选,否则第二阶段选博弈方博弈方2:第一阶段选第一阶段选 ,若第一阶段结果,若第一阶段结果 出现,则第二阶出现,则第二阶段选段选 ,否则第二阶段选,否则第二阶段选与前面的分析类似,与前面的分析

46、类似,是是 的一个子博弈精炼解且的一个子博弈精炼解且 第一阶段偏离第一阶段偏离 而选择而选择 者(对者(对 ,的最优反应是的最优反应是 而非而非 )最好的收益是最好的收益是5+1/2 ,即均衡解为,即均衡解为 或为或为 73二、有限次重复博弈二、有限次重复博弈二、有限次重复博弈二、有限次重复博弈两阶段囚徒模型困境的扩展两阶段囚徒模型困境的扩展带带Parote边界的情形边界的情形 甲甲 乙乙L1R1L2R2 阶段博弈有阶段博弈有4个个NE 1,1M1M2 5,0 4,4 0,0 0,0 0,0 0,5 0,0 0,0 0,0 3,3 0,0 0,0 0,0 4,1/2 0,0 0,0 0,0 0

47、,0 0,0 0,0 0,0 0,0 1/2,4 0,0P1Q1Q2P2注记注记 背叛者的最好的收益是背叛者的最好的收益是5+1/2(第二阶段选择其(第二阶段选择其 它行动收益更差),它行动收益更差),诚信者也有诚信者也有0+4 的收益。的收益。可信性:惩罚背叛者,奖励惩罚者可信性:惩罚背叛者,奖励惩罚者。结论:上述触发策略中(报复)的结论:上述触发策略中(报复)的 可信性比上一个博弈为强,从而合可信性比上一个博弈为强,从而合 作解是相对稳的。作解是相对稳的。三、无限重复博弈三、无限重复博弈 核心问题:核心问题:可信性可信性 主要结论主要结论 :(1)对)对 :若若 有唯一有唯一NENE,则,

48、则 的每个阶的每个阶段段 的结果都是的结果都是 的的NENE。若若G有多个有多个NE,则则 存在子博弈精炼解:存在子博弈精炼解:,阶,阶段段 的结果都不是的结果都不是 的的NE;(2)对对 :若:若 有唯一的有唯一的NE,则,则 可能存可能存在子博弈精炼解:在子博弈精炼解:的任意阶段的任意阶段 的结果都不是的结果都不是 的的NE。76三、无限次重复博弈三、无限次重复博弈三、无限次重复博弈三、无限次重复博弈1、G有唯一有唯一NE时的时的 例:例:两阶段囚徒困境两阶段囚徒困境 甲甲 乙乙L1R1L2R21 ,14 ,40 ,5 5 ,0 阶段博弈(原博弈)有惟一的阶段博弈(原博弈)有惟一的NE(L

49、1,L2)1 1、无限重复囚徒困境博弈、无限重复囚徒困境博弈 (1)对)对 ,在第在第 阶段开始前的阶段开始前的 次阶段的结果都可知。次阶段的结果都可知。(2 2)必须考虑贴现因子(度量收益之和)必须考虑贴现因子(度量收益之和)。(3 3)的策略组合有无限多种,求解子博弈均衡非常难。的策略组合有无限多种,求解子博弈均衡非常难。解决方法:解决方法:先入为主地给出一些自认为先入为主地给出一些自认为“合理合理”的策略,然后的策略,然后再证明其为子博弈精炼均衡解。再证明其为子博弈精炼均衡解。给出以下给出以下触发策略触发策略:参与者参与者 :第一阶段选择合作(即:第一阶段选择合作(即 )且在第)且在第

50、阶段,如果所有阶段,如果所有前面前面 阶段的结果都是阶段的结果都是 ,则选择,则选择 ,否则选择,否则选择 。“触发策略触发策略”的含义的含义:如果没有人选择不合作,合作将一直如果没有人选择不合作,合作将一直进行下去,一旦有人选择不合作,就会触发其后所有阶进行下去,一旦有人选择不合作,就会触发其后所有阶段都不再相互合作。段都不再相互合作。若局中人若局中人 第一阶段选择第一阶段选择 ,按上述触发策略,(,按上述触发策略,(选择选择 )的总收益为的总收益为 (引发(引发 不合作)不合作)若若 第一阶段选择第一阶段选择 (合作)(合作)(选选 )此时双方各自的总收益均为:此时双方各自的总收益均为:若

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服