1、第六章第六章 重复博弈与合作行为重复博弈与合作行为1序惯博弈序惯博弈(sequential game)序惯博弈:参与人在前一个决策点的选择决定随后的子序惯博弈:参与人在前一个决策点的选择决定随后的子博弈的结构,因此,从后一个决策点开始的子博弈不同博弈的结构,因此,从后一个决策点开始的子博弈不同于从前一个决策点开始的子博弈,或者说,同样结构的于从前一个决策点开始的子博弈,或者说,同样结构的子博弈只出现一次;子博弈只出现一次;分分乙乙甲甲不借不借借借不分不分(1,0)(0,4)(2,2)乙(-1,0)2重复博弈重复博弈(repeated game)重复博弈:同样结构的博弈重复多次,其中的每次重复博
2、弈:同样结构的博弈重复多次,其中的每次博弈被称为博弈被称为“阶段博弈阶段博弈”(stage game).以囚徒困境为例,如果每次判刑不是很重(至少不以囚徒困境为例,如果每次判刑不是很重(至少不是无期徒刑),那么,两个囚徒在刑满释放之后再是无期徒刑),那么,两个囚徒在刑满释放之后再作案,作案之后再判刑,释放之后再作案,如此等作案,作案之后再判刑,释放之后再作案,如此等等,他们之间进行的就是重复博弈,其中每次作案等,他们之间进行的就是重复博弈,其中每次作案是一个阶段博弈。是一个阶段博弈。3重复博弈的三个特征重复博弈的三个特征阶段博弈之间没有阶段博弈之间没有“物质上物质上”的联系(的联系(no ph
3、ysical links),也就是说,前一阶段的博弈不,也就是说,前一阶段的博弈不改变后一阶段的结构;改变后一阶段的结构;所有参与人都观察到博弈过去的历史;所有参与人都观察到博弈过去的历史;参与人的总支付是所有阶段博弈支付的贴现值参与人的总支付是所有阶段博弈支付的贴现值之和。之和。4影响重复博弈均衡结果的因素影响重复博弈均衡结果的因素博弈重复的次数博弈重复的次数重复次数的重要性来自于参与人在短期利益和长远重复次数的重要性来自于参与人在短期利益和长远利益之间的权衡。这是重复博弈分析给出的一个强利益之间的权衡。这是重复博弈分析给出的一个强有力的结果,为现实中观测到许多合作行为和社会有力的结果,为现
4、实中观测到许多合作行为和社会规范提供解释。规范提供解释。信息的完备性信息的完备性(completeness)当一个参与人的支付函数(特征)不为其他参与人当一个参与人的支付函数(特征)不为其他参与人所知时,该参与人可能有积极性建立一个所知时,该参与人可能有积极性建立一个“好好”声声誉以换取长远利益。这一点可以解释为什么那些本誉以换取长远利益。这一点可以解释为什么那些本质上并不好的人在相当长的时期内干好事。质上并不好的人在相当长的时期内干好事。5基本概念基本概念有限次重复博弈:给定一个基本博弈有限次重复博弈:给定一个基本博弈G(可以是静态博(可以是静态博弈,也可以是动态博弈),重复进行弈,也可以是
5、动态博弈),重复进行T次次G,并且在每,并且在每次重复次重复G之前各博弈方都能观察到以前博弈的结果,这之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为样的博弈过程称为“G的的T次重复博弈次重复博弈”,记为,记为G(T)。而而G则称为则称为G(T)的的“原博弈原博弈”。G(T)中的每次重复称为中的每次重复称为G(T)的一个的一个“阶段阶段”。无限次重复博弈:一个基本博弈无限次重复博弈:一个基本博弈G一直重复博弈下去的一直重复博弈下去的博弈,记为博弈,记为G()6“囚徒困境囚徒困境”的一般表示的一般表示满足:满足:RTPS;(S+R)T+T3,3-1,44,-10,0合合 作作不不合作合作
6、合合 作作不不合作合作两个罪犯的得益矩阵两个罪犯的得益矩阵BAT,TS,RR,SP,P合合 作作不合作不合作合合 作作不合作不合作9支付函数支付函数双方都不合作:双方都不合作:对对 的解释:的解释:贴现率;贴现率;博弈继续的概率;博弈继续的概率;一般化:未来收益的重要程度一般化:未来收益的重要程度10两人零和博弈的有限次重复博弈两人零和博弈的有限次重复博弈零和博弈是严格竞争的,重复博弈并不改变这一点。零和博弈是严格竞争的,重复博弈并不改变这一点。以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样,博弈方的正确策略是重复一次性有限次
7、重复博弈一样,博弈方的正确策略是重复一次性博弈中的纳什均衡策略。博弈中的纳什均衡策略。-1,11,-11,-1-1,1正正 面面反反 面面猜硬币方猜硬币方盖盖硬硬币币方方正正 面面反反 面面11唯一纯策略纳什均衡博弈的有限次重复博弈唯一纯策略纳什均衡博弈的有限次重复博弈定理:设原博弈定理:设原博弈G G有唯一的纯有唯一的纯策略纳什均衡策略纳什均衡,则对任意正整则对任意正整数数T T,重复博弈重复博弈 G(T)G(T)有唯一的有唯一的子博弈完美纳什均衡,即各博子博弈完美纳什均衡,即各博弈方每个阶段都采用弈方每个阶段都采用G G的纳什的纳什均衡策略。各博弈方在均衡策略。各博弈方在G(T)G(T)中
8、中的总得益为在的总得益为在G G中得益的中得益的T T倍,倍,平均得益的等于原博弈平均得益的等于原博弈G G中的中的得益。得益。-5,-50,-8-8,0-1,-1坦坦 白白不坦白不坦白囚徒囚徒2坦白坦白不坦白不坦白囚囚徒徒1(-5,-5)-10,-10-13,-5-5,-13-6,-6坦坦 白白不坦白不坦白囚徒囚徒2坦白坦白不坦白不坦白囚囚徒徒1(-10,-10)12有限次重复博弈:连锁店悖论有限次重复博弈:连锁店悖论(chain_store(chain_store paradox)paradox)40,50-10,00,3000,300默许默许斗争斗争进入进入不进入不进入在位者在位者进进入
9、入者者市场进入博弈市场进入博弈有唯一纯策略纳什均衡有唯一纯策略纳什均衡(40,50)有限次重复的结果仍然是有限次重复的结果仍然是(进入,默许)(进入,默许)13多个纯策略纳什均衡博弈的有限次重复博弈多个纯策略纳什均衡博弈的有限次重复博弈5,53,32,00,22,06,00,20,61,1HMH厂商厂商2ML厂厂商商1L三价博弈三价博弈2,23,13,11,34,47,11,31,78,8厂厂商商1厂商厂商2LMHHML两次重复三价博弈的等价两次重复三价博弈的等价博弈博弈触发策略触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复两博弈方先试探合作,一旦发现对方不合作则也用不合作报
10、复博弈方博弈方1 1:第一次选:第一次选h h;如第一次结果为;如第一次结果为(H,H)(H,H),则第二次选,则第二次选M M,否则选,否则选L L博弈方博弈方2 2:同博弈方:同博弈方1 114触发策略的进一步讨论触发策略的进一步讨论5,53,32,00,22,06,00,20,61,1HMH厂商厂商2ML厂厂商商1L三价博弈三价博弈4,45,35,31,36,69,33,53,98,8厂厂商商1厂商厂商2LMHHML重复三价博弈的等价重复三价博弈的等价博弈博弈:不可信报复:不可信报复15触发策略可信性较强的博弈触发策略可信性较强的博弈博博弈弈方方1博弈方博弈方2LMHHML2,06,01
11、,12,00,23,30,20,65,50,00,00,00,00,00,00,00,00,00,00,00,01/2,40,00,04,1/2PQPQl博弈方1:在第一阶段采用H,如果第一阶段结果是(H,H),那么第二阶段采用M,否则采用P;l博弈方2:在第一阶段采用H;如果第一阶段结果是(H,H),那么第二阶段采用M,否则采用Q。16两市场博弈的重复博弈(重复两次)两市场博弈的重复博弈(重复两次)(A,B)+(A,B)OR (B,A)+(B,A)(1,4)(4,1)(A,B)+(A,B)OR (B,A)+(B,A)(1,4)(4,1)连续两次采用混合策略连续两次采用混合策略(2,2)(2,
12、2)(A,B)+(B,A)OR (B,A)+(A,B(A,B)+(B,A)OR (B,A)+(A,B)(2.5,2.5)(2.5,2.5)轮换策略轮换策略一次纯策略一次纯策略+一次混合策略一次混合策略(1.5,3)(3,1.5)(1.5,3)(3,1.5)0,04,11,43,3厂厂商商1厂商厂商2BAAB两市场博弈两市场博弈17两市场博弈及重复博弈各均衡的平均得益两市场博弈及重复博弈各均衡的平均得益不同策略组合、均衡得益图示不同策略组合、均衡得益图示厂商厂商2得益得益厂商厂商1得益得益(3,3)(2.5,2.5)(2,2)(1,4)(4,1)(3,1.5)(1.5,3)18触发策略触发策略厂
13、商厂商1:第一阶段选:第一阶段选A;如果第一阶段结果是(;如果第一阶段结果是(A,A),),则第二阶段选则第二阶段选A,如果第一阶段结果是(,如果第一阶段结果是(A,B),则),则第二阶段选第二阶段选B;第三阶段无条件选;第三阶段无条件选B。厂商厂商2:第一阶段选:第一阶段选A,第二阶段无条件选,第二阶段无条件选B,如果第,如果第一阶段结果是(一阶段结果是(A,A),则第三阶段选),则第三阶段选A;如果第一;如果第一阶段结果是(阶段结果是(B,A),则第三阶段选),则第三阶段选B。均衡路径:(均衡路径:(A,A)(A,B)(B,A)19有限次重复博弈的民间定理(有限次重复博弈的民间定理(Fol
14、k TheoremFolk Theorem)个体理性得益个体理性得益(Individual Rationality PayoffIndividual Rationality Payoff):不管其它博弈方的行为如何,一博弈方在某个博弈中只要自己采取某种特定的策略,最低限度保证能获得的得益可实现得益可实现得益(Feasible PayoffFeasible Payoff):博弈中所有纯策略组合得益的加权平均数组定理:定理:设原博弈的一次性博弈有均衡得益数组优于w,那么在该博弈的多次重复中所有不小于个体理性得益的可实现得益,都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们。厂商2得益厂商1
15、得益(1,4)(3,3)(1,1)(4,1)w=(1.1)20两人零和博弈的无限次重复博弈两人零和博弈的无限次重复博弈两人零和博弈无限次重复的所有阶段都不两人零和博弈无限次重复的所有阶段都不可能发生合作,博弈方会一直重复原博弈可能发生合作,博弈方会一直重复原博弈的混合策略纳什均衡的混合策略纳什均衡.21唯一纯策略纳什均衡博弈的无限次重复博弈唯一纯策略纳什均衡博弈的无限次重复博弈两寡头削价竞争博弈两寡头削价竞争博弈 该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈4,40,55,01,1HLHL22无限次重复两寡头削价博弈无限次重复两寡头削价博
16、弈 触发策略触发策略:第一阶段采用第一阶段采用H H,如果前,如果前t-1t-1阶段的结果都是阶段的结果都是(H,H)(H,H),则继续采用,则继续采用H H,否则采用,否则采用L L。如果博弈方如果博弈方2 2采用采用L L,总得益现值为,总得益现值为 如果博弈方如果博弈方2 2采用采用H H,总得益现值为,总得益现值为 因此当因此当 时,此触发策略纳什均衡策略时,此触发策略纳什均衡策略23两寡头削价竞争无限次重复博弈的民间定理两寡头削价竞争无限次重复博弈的民间定理厂商2得益厂商1得益(1,4)(3,3)(1,1)(4,1)(5,0)(5,0)24无限次重复古诺模型无限次重复古诺模型 假定:
17、假定:在无限次重复古诺模型中,当贴现率在无限次重复古诺模型中,当贴现率 满足一定条件时,满足一定条件时,两厂商采用下列触发策略构成一个子博弈完美纳什均衡:两厂商采用下列触发策略构成一个子博弈完美纳什均衡:在第一阶段生产垄断产量的一半在第一阶段生产垄断产量的一半1.5;在第;在第 t 阶段,如果阶段,如果前前 t-1 阶段结果都是阶段结果都是(1.5,1.5),则继续生产,则继续生产1.5,否则,否则生产古诺产量生产古诺产量2。25无限次重复古诺模型无限次重复古诺模型设厂商设厂商1已采用该触发策略,若厂商已采用该触发策略,若厂商2也采用该触发策略,也采用该触发策略,则每期得益则每期得益4.5,无
18、限次重复博弈总得益的现值为:,无限次重复博弈总得益的现值为:如果厂商如果厂商2偏离上述触发策略,则他在第一阶段所选产偏离上述触发策略,则他在第一阶段所选产量应为给定厂商量应为给定厂商1产量为产量为1.5时,自己的最大利润产量,时,自己的最大利润产量,即满足:即满足:26无限次重复古诺模型无限次重复古诺模型 高于触发策略第一阶段得益高于触发策略第一阶段得益4.5。但从第二阶段开始,厂但从第二阶段开始,厂商商1将报复性地永远采用古诺产量将报复性地永远采用古诺产量2,这样厂商,这样厂商2也被迫也被迫永远采用古诺产量,从此得利润永远采用古诺产量,从此得利润4。因此,无限次重复。因此,无限次重复博弈第一
19、阶段偏离的情况下总得益的现值为:博弈第一阶段偏离的情况下总得益的现值为:27 无限次重复古诺模型无限次重复古诺模型 上述策略是厂商上述策略是厂商2对厂商对厂商1的同样触发策略的最佳反应,的同样触发策略的最佳反应,否则偏离是最佳反应。否则偏离是最佳反应。28低水平的合作低水平的合作 29低水平的合作低水平的合作 30效率工资效率工资(efficiency wage)模型设定模型设定:首先厂商选择工资率为首先厂商选择工资率为 ,然后工人选择接受,然后工人选择接受或拒绝。如果拒绝,则他作个体户得到收入或拒绝。如果拒绝,则他作个体户得到收入 小小于于 ,如果接受,如果接受 ,则工人选择努力工作(负,则
20、工人选择努力工作(负效用效用 )还是偷懒(无负效用)。)还是偷懒(无负效用)。厂商只能看到产量高低,高产量为厂商只能看到产量高低,高产量为 ,低,低产量产量0。31效率工资效率工资(efficiency wage)模型设定模型设定:工人努力工作时一定是高产量工人努力工作时一定是高产量 ,不努力时,不努力时却并不一定是却并不一定是0,而是高产量,而是高产量 的概率为的概率为 ,低产量低产量0的概率为的概率为 。工人努力工作时,厂商得益为工人努力工作时,厂商得益为 ,工人得,工人得益为益为 ;工人偷懒时,厂商期望得益;工人偷懒时,厂商期望得益工人得益为工人得益为 。32考虑如下的触发策略考虑如下的
21、触发策略 厂商在第一阶段给工资率厂商在第一阶段给工资率 ,在第,在第t阶段,阶段,如果前面如果前面t-1阶段结果都是阶段结果都是 则继续给则继续给 ,否则从此永远是否则从此永远是 。工人的策略是如果工人的策略是如果 则接受,否则宁则接受,否则宁愿作个体户得到愿作个体户得到 ,并在以前各期结果都是,并在以前各期结果都是 和当前工资率为和当前工资率为 时努力工作,否则偷懒。时努力工作,否则偷懒。33考虑如下的触发策略考虑如下的触发策略设厂商已采用上述触发策略。由于设厂商已采用上述触发策略。由于 ,工人接受工作是最佳反应。用工人接受工作是最佳反应。用 记工人努记工人努力工作时无限次重复博弈得益的现值
22、,则力工作时无限次重复博弈得益的现值,则 即即34 用用 记工人选偷懒时无限重复博弈得益的现值,则:记工人选偷懒时无限重复博弈得益的现值,则:因此当因此当 即即时,努力是工人的最佳选择。时,努力是工人的最佳选择。考虑如下的触发策略考虑如下的触发策略35 反过来,设工人已采用上述触发策略。若厂商反过来,设工人已采用上述触发策略。若厂商给的工资率满足上式条件,并且威胁一旦产量降低给的工资率满足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段的得益为就解雇工人,则各阶段的得益为 ,无限次重,无限次重复博弈得益现值为复博弈得益现值为 若不愿给若不愿给 ,则解雇工人,以后得益为,则解雇工人,以后得益为
23、0。因。因此只要此只要 ,厂商选择前述触发策略就是最佳,厂商选择前述触发策略就是最佳反应。反应。考虑如下的触发策略考虑如下的触发策略36 综上所述,在满足综上所述,在满足的条件下,双方的触发策略构成一个纳什均衡。而上述两式实际上的条件下,双方的触发策略构成一个纳什均衡。而上述两式实际上意味着意味着即工人努力的产出扣除努力负效用后的剩余,必须不小于工人作个即工人努力的产出扣除努力负效用后的剩余,必须不小于工人作个体户的收入即机会成本,加上一定比例的取决于努力负效用、贴现体户的收入即机会成本,加上一定比例的取决于努力负效用、贴现系数和偷懒可能得高产量概率的附加部分。系数和偷懒可能得高产量概率的附加
24、部分。最后这个不等式正是存在有效工资率,工作激励有效的基本条最后这个不等式正是存在有效工资率,工作激励有效的基本条件。件。小结小结37分析题分析题如果如果T次重复齐威王田忌赛马,双方在该重复博次重复齐威王田忌赛马,双方在该重复博弈中的策略是什么?博弈结果如何?弈中的策略是什么?博弈结果如何?3,-31,-11,-11,-1-1,11,-11,-13,-31,-11,-11,-1-1,11,-1-1,13,-31,-11,-11,-1-1,11,-1,1,-13,-31,-11,-11,-11,-11,-1-1,13,-31,-11,-11,-1-1,11,-11,-13,-3上中下上下中中上下
25、中下上下上中下中上上中下上下中中上下中下上下上中下中上田田 忌忌齐齐威威王王得益矩阵得益矩阵38分析题分析题举出现实生活中的一个重复博弈与一次性博弈举出现实生活中的一个重复博弈与一次性博弈效率不同的例子。效率不同的例子。有限次重复博弈和无限次重复博弈有什么区别有限次重复博弈和无限次重复博弈有什么区别?这些区别对我们有什么启发?这些区别对我们有什么启发?为什么消费者偏好去大商店买东西而不太信赖为什么消费者偏好去大商店买东西而不太信赖走街穿巷的小商贩?走街穿巷的小商贩?39 判断题判断题 有限次重复博弈的子博弈完美纳什均衡每次重复有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡
26、。采用的都是原博弈的纳什均衡。有限次重复博弈的子博弈完美纳什均衡的最后一有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。次重复必定是原博弈的一个纳什均衡。无限次重复博弈均衡解的得益一定优于原博弈均无限次重复博弈均衡解的得益一定优于原博弈均衡解的得益。衡解的得益。无限次重复古诺产量博弈不一定会出现合谋生产无限次重复古诺产量博弈不一定会出现合谋生产垄断产量的现象。垄断产量的现象。40分析题分析题在囚徒困境例子中,如果双方事前订立攻守同在囚徒困境例子中,如果双方事前订立攻守同盟是否可以改变均衡结果?如果该博弈重复盟是否可以改变均衡结果?如果该博弈重复N次,次,N值很大是否
27、会出现合作结果?如果重复值很大是否会出现合作结果?如果重复无穷次是否出现合作结果?简单说明理由。无穷次是否出现合作结果?简单说明理由。41参考答案参考答案重复博弈次数的重要性来自参与人在短期利益和重复博弈次数的重要性来自参与人在短期利益和长期利益之间权衡,当博弈只进行一次,每个参长期利益之间权衡,当博弈只进行一次,每个参与人都只关心一次性的支付,同时也意味着没有与人都只关心一次性的支付,同时也意味着没有人能够对其他参与人的行为进行奖励和报复,因人能够对其他参与人的行为进行奖励和报复,因此既使事先订立攻守同盟,均衡结果不会改变。此既使事先订立攻守同盟,均衡结果不会改变。42参考答案参考答案重复无
28、穷次时,所有参与人过去的行为都是观测得到的,重复无穷次时,所有参与人过去的行为都是观测得到的,因而某一参与人可以通过自己在本阶段博弈中的选择,因而某一参与人可以通过自己在本阶段博弈中的选择,来回应其他参与人在以前阶段博弈中的行为,任何一个来回应其他参与人在以前阶段博弈中的行为,任何一个参与人一次性不合作将触发永远的不合作,因此重复博参与人一次性不合作将触发永远的不合作,因此重复博弈无穷时,参与人慑于冷酷战略的严重后果,有积极性弈无穷时,参与人慑于冷酷战略的严重后果,有积极性维持合作。维持合作。博弈有限次,意味着存在所有参与人都可以预测到的博弈有限次,意味着存在所有参与人都可以预测到的“最后一次
29、最后一次”,在最后阶段博弈中,每个参与人都会选择,在最后阶段博弈中,每个参与人都会选择自己的占优战略,因为其他参与人不可能报复,因此不自己的占优战略,因为其他参与人不可能报复,因此不会出现合作结果。会出现合作结果。43练习练习若次重复如下先来后到博弈,子博弈完美若次重复如下先来后到博弈,子博弈完美纳什均衡是什么?纳什均衡是什么?A打击打击B不进不进打进打进和平和平(0,10)(5,6)(-2,3)44练习练习45练习练习46练习练习再假设成功时每人有单位利益,失败则双方都没有利益,偷懒再假设成功时每人有单位利益,失败则双方都没有利益,偷懒本身有单位利益。问该博弈无限次重复博弈的均衡是什么?本身有单位利益。问该博弈无限次重复博弈的均衡是什么?9/163/83/81/4努力努力偷懒偷懒努力努力偷懒偷懒两个人合作开发一项产品,能否成功与两个人的工作态度有关,两个人合作开发一项产品,能否成功与两个人的工作态度有关,设成功概率如下:设成功概率如下:47This is the last slide in Chapter F6.Chapter F648