博弈复习题及参考答案.doc

资源描述

(完整版)博弈复习题及参考答案第一章复习题 2，4，5，6，7 第一章参考答案 2、设定一个博弈必须确定的方面包括：（1）博弈方，即博弈中进行决策并承担结果的参与者;（2）策略(空间），即博弈方选择的内容，可以是方向、取舍选择,也可以是连续的数量水平等；（3)得益或得益函数，即博弈方行为、策略选择的相应后果、结果，必须是数量或者能够折算成数量；(4）博弈次序，即博弈方行为、选择的先后次序或者重复次数等；（5）信息结构，即博弈方相互对其他博弈方行为或最终利益的了解程度；(6）行为逻辑和理性程度，即博弈方是依据个体理性还是集体理性行为，以及理性的程度等.如果设定博弈模型时不专门设定后两个方面,就是隐含假定是完全、完美信息和完全理性的非合作博弈。 4、“囚徒的困境”的内在根源是在个体之间存在行为和利益相互制约的博弈结构中，以个体理性和个体选择为基础的分散决策方式，无法有效地协调各方面的利益,并实现整个、个体利益共同的最优。简单地说，“囚徒的困境”问题都是个体理性与集体理性的矛盾引起的。现实中“囚徒的困境"类型的问题是很多的。例如厂商之间价格战、恶性的广告竞争，初中、中等教育中的应试教育等，其实都是“囚徒的困境”博弈的表现形式. 5、首先可根据博弈方的行为逻辑，是否允许存在有约束力协议，分为非合作博弈和合作博弈两大类. 其次可以根据博弈方的理性层次，分为完全理性博弈和有限理性博弈两大类，有限理性博弈就是进化博弈. 第三是可以根据博弈过程分为静态博弈、动态博弈和重复博弈三大类。第四是根据博弈问题的信息结构，根据博弈方是否都有关于得益和博弈过程的充分信息，分为完全信息静态博弈、不完全信息静态博弈、完全且完美信息动态博弈、完全但不完美信息动态博弈和不完全信息动态博弈几类。第五是根据得益的特征分为零和博弈、常和博弈和变和博弈. 第六是根据博弈中博弈方的数量，可将博弈分为单人博弈、两人博弈和多人博弈。第七是根据博弈方策略的数量，分为有限博弈和无限博弈两类。 9、（a）根据问题的假设,该博弈的得益矩阵和扩展形表示分别如下：自然赚（35%）亏（65％） 300 0 100 100 开我不开自然亏（65%）赚（35%）（300）（100）（0）（100）不开开不开开我 (b)如果我是风险中性的，那么根据开的期望收益与不开收益的比较： 0。35×300+0。65×0=105＞100 肯定会选择开。 (c）如果成功的概率降低到0。3，那么因为这时候开的期望收益与不开的收益比较： 0。30×300+0。70×0=90＜100 因此会选择不开，策略肯定会变化。（d）如果我是风险规避的,开的期望收益为： 0。9×（0.35×300+0。65×0）=0.9×105=94.5＜100 因此也会选择不开。（e）如果我是风险偏好的,那么因为开的期望收益为： 1.2×(0。35×300+0。65×0)=1.2×105=126＞100 因此这时候肯定会选择开。 10、首先需要注意的是，在该博弈方的得益单位不同，逃犯得到的是增加或者减少的刑期（年），而看守得到的则是奖金（元），因此除非先利用效用概念折算成相同的单位，否则两博弈方的得益相互之间不能比较和加减。直接采用单位不同的得益，该博弈的得益矩阵如下: 看守路线一路线二 -10，1000 10，0 10，0 -10，1000 逃路线一犯路线二该博弈的扩展形表示如下：看守路线二路线二路线一路线一逃犯路线二路线一（-10，1000）（10，0）（10，0）（-10，1000）根据上述得益矩阵和扩展形不难清楚,该博弈中两博弈方的利益是对立的。虽然由于两博弈方得益的单位不同，相互之间得益无法相加，因此无法判断是否为零和博弈，但两博弈方关系的性质与猜硬币等博弈相同，也是对立的。因此，该博弈同样没有两博弈方都愿意接受的具有稳定性的策略组合，两博弈方最合理的策略都是以相同的概率随机的选择路线。补充习题: 1. 判断下列叙述是否正确，并作简单分析。 a) 囚徒的困境博弈中两个囚徒之所以会处于困境,无法得到较理想的结果，是因为两囚徒都不在乎坐牢时间长短本身,只在乎不能比对方坐牢的时间更长。 b) 合作博弈就是博弈方采取互相合作态度的博弈。参考答案： a) 错误。结论恰恰相反，也就是囚徒的困境博弈中两囚徒之所以处于困境，根源正是因为两囚徒很在乎坐牢的绝对时间长短。此外,我们已开始就假设两囚徒都是理性经济人，而理性经济人都是以自身的（绝对）利益，而不是相对利益为决策目标。 b) 不正确。合作博弈在博弈论中专门指博弈方之间可以达成和运用有约束力协议限制行为选择的博弈问题，与博弈方的态度是否合作无关。 2. 博弈与游戏有什么关系? 参考答案: 现代博弈论和经济学中的博弈通常指人们在经济、政治、军事等活动中的策略选择，特别是在有各种交互作用、策略互动条件下的策略选择和决策较量。游戏则是指日常生活中的下棋打牌、赌胜博彩，以及田径、球类等各种体育比赛.因此博弈和游戏之间当然是有明显区别的。但博弈和游戏之间其实也有重要的联系，因为博弈与许多游戏之间在本质特征方面有相同的特征：(1)都有一定的规则;（2）都有能用正或负的数值表示，或能按照一定的规则折算成数值的结果;（3）策略至关重要;(4)策略和利益又相互依存性。正是因为存在这些共同的本质特征,因此从研究游戏规律得出的结论可用来指导经济政治等活动中的决策问题,或者把这些决策问题当作游戏问题研究.因此博弈在一定程度上可以理解成就是游戏。其实“博弈”的英文名称“Game”的基本意义就是游戏。 3. 一个工人给一个老板干活，工资标准是100元。工人可以选择是否偷懒,老板则选择是否克扣工资。假设工人不偷懒有相当于50元的负效用，老板想克扣工资则总有借口扣掉60元工资，工人不偷懒老板有150元产出，而工人偷懒是老板只有80元产出,但老板在支付工资之前无法知道实际产出，这些情况使双方都知道的。请问 a) 如果老板完全能够看出工人是否偷懒，博弈属于哪种类型？用得益矩阵或扩展形表示该博弈并作简单分析。 b) 如果老板无法看出工人是否偷懒，博弈属于哪种类型？用得益矩阵或扩展形表示并简单分析。参考答案: 工人老板老板偷懒不偷懒克扣克扣不克扣不克扣（40，40））（100，-20））（-10，110））（50，50）） a) 由于老板在决定是否克扣工资欠可以完全清楚工人是否偷懒，因此这是一个动态博弈，而且是一个完全信息的动态博弈。此外，由于双方都有关于得益的充分信息,因此只是一个完全且完美信息的动态博弈。该博弈用扩展形表示如下：根据上述得益情况可以看出，在该博弈中偷懒对工人总是有利的，克扣对老板也总是有利的，因此在双方都只考虑自己的利益最大化的情况下,该博弈的通常结果应该是工人偷懒和老板克扣。 b) 由于老板在决定是否克扣工资欠无法清楚工人是否偷懒，因此该博弈可以看作静态博弈。由于双方仍然都有关于得益的充分信息,因此是一个完全信息的静态博弈。该博弈用得益矩阵表示如下：老板克扣不克扣工人偷懒 40，40 100，—20 不偷懒 —10,110 50，50 其实，根据该得益矩阵不难得到与上述动态博弈相同的结论，仍然是工人会选择偷懒和老板会选择克扣.这个博弈实际上与囚徒的困境是相似的。第二章复习题 4，5，7，9，11，12 第二章参考答案 4、多重纳什均衡不会影响纳什均衡的一致预测性质。这是因为一致预测性不是指各个博弈方有一致的预测,而是指每个博弈方自己的策略选择与自己的预测一致。对博弈分析主要的不利影响是,当博弈存在多重纳什均衡，而且相互之间没有明确的优劣之分时，会造成预测分析的困难，影响以纳什均衡为核心的博弈分析的预测能力。存在帕累托上策均衡、风险上策均衡、聚点均衡或相关均衡的可能性,并且博弈方相互之间有足够的默契和理解时,多重纳什均衡造成的不利影响会较小。 5、博弈方2 L C R 2,0 1，1 4，2 3，4 1,2 2，3 1，3 0，2 3，0 博 T 弈 M 方 B 1 首先，运用严格下策反复消去法的思想，不难发现在博弈方1的策略中，B是相对于T的严格下策，因此可以把该策略从博弈方1的策略空间中消去。把博弈方1的B策略消去后又可以发现，博弈方2的策略中C是相对于R的严格下策，从而也可以消去。在下面的得益矩阵中相应策略和得益处划水平线和垂直线表示消去了这些策略. 博弈方2 L C R 2,0 1，1 4，2 3，4 1，2 2，3 1，3 0，2 3，0 博 T 弈 M 方 B 1 两个博弈方各消去一个策略后的博弈是如下的两人2×2博弈，已经不存在任何严格下策。再运用划线或箭头法，很容易发现这个2×2博弈有两个纯策略纳什均衡（M，L）和（T，R)。博弈方2 L R 2，0 4，2 3，4 2，3 博 T 弈 M 方 1 由于两个纯策略纳什均衡之间没有帕累托效率意义上的优劣关系，双方利益有不一致性，因此如果没有其他进一步的信息或者决策机制,一次性静态博弈的结果不能肯定。由于双方在该博弈中可能采取混合策略，因此实际上该博弈的结果可以是4个纯策略组合中的任何一个。 7、我们用反应函数法来分析这个博弈.先讨论博弈方1的选择。根据问题的假设,如果博弈方2选择金额s2（0≤s2≤10000），则博弈方1选择s1的利益为：当S1≤10000 s2 当S1≤10000 s2 u(s1)= 因此博弈方1采用s1=1000—s2时，能实现自己的最大利益u(s1）= s1=1000-s2。因此s1=1000—s2就是博弈方1的反应函数。博弈方2与博弈方1的利益函数和策略选择是完全相似的，因此对博弈方1所选择的任意金额s1，博弈方2的最优反应策略，也就是反应函数是s2=1000- s1。显然，上述博弈方1的反应函数与博弈方2的反应函数是完全重合的，因此本博弈有无穷多个纳什均衡，所有满足该反应函数，也就是s1+ s2=10000的数组（s1 ，s2）都是本博弈的纯策略纳什均衡. 如果我是两个博弈方中的一个，那么我会要求得到5000元。理由是在该博弈的无穷多个纯策略纳什均衡中，（5000，5000）既是比较公平和容易被双方接受的，也是容易被双方同时想到的一个，因此是一个聚点均衡。 9、（1)第i个厂商的利润函数为： πi=pqi—ciqi=(a-qi-qj)qi-ciqi 将利润函数对产量求导并令其为0得: =a—qj—ci—2qi=0 解得两个厂商的反应函数为: qj=（a- qj—ci）/2 或具体写成： q1=（a-q2-c1）/2 q2=(a—q1—c2)/2 （2)当0＜ci＜a/2时，我们根据上述两个厂商的反应函数，直接求出两个厂商的纳什均衡产量分别为： q1= q2= （3)当c1＜c2＜a，但2c2＞a+ c1时，根据反应函数求出来的厂商2产量q2＜0。这意味着厂商2不会生产，这时厂商1成了垄断厂商，厂商1的了优产量选择是利润最大化的垄断产量 q1=q＊ = 因此这种情况下的纳什均衡为[(a— c1）/2, 0]. 11、(1）两个候选人竞争时，纯策略纳什均衡为(0。5,0.5），即两个假选人都宣布自己是中间立场。我们用直接分析法加以证明：首先，如果一个候选人的立场是0.5而另一个候选人的立场不是0。5，那么不难证明有者将获胜而后者必然失败，因为根据投票原则前者得票比例将大于0。5，那么双方都有一半机会获胜。因此对任意一个候选人来说，都是不管对方选择的立场是否为0.5，0.5都是自己的正确选择,也就是说0.5都是上策。因此(0。5，0。5）是本博弈的一个上策均衡，当然也是纳什均衡。事实上，即使两个假选人开始时没有立即找到最佳立场0.5，他也会通过边竞争边学习很快调整到该纳什均衡策略。因为当两个候选人的立场都不在0。5时，谁更靠近0.5谁选票就多，观察到这一点，两个候选人必然都会向0。5靠拢,直到最后都取0.5的立场。当两个候选人都选择0.5时，各自都能得到一半选民的支持，谁能够取胜往往取决于双方竞选立场以外的东西，例如候选人的个人魅力和演说才能等。（2）三个候选人时问题比较复杂。因为当三个候选人的立场都处于中点附近位置时，立场夹在其他两个候选人之间的候选人只能获得很少的选票,从而他（或她）有转变成比“左”倾者更“左”倾，或比右倾者更右倾立场的动机。这时候三个候选人在中点附近处于一种不稳定的平衡。(0。5±δ，0.5±ε，0.5±ξ），其中δ，ε和ξ是小正数。如果考虑到现实中竞选者的立场不可能由一维数学坐标精确描述,选民对候选立场差别的分辨能力也不可能很精细,那么当候选人的立场堵接近中点时，选民很难识别究竟哪个候选人偏右倾或“左"倾一些，因此三个候选人的立场都接近中点时可理解为是相同的.这样，三个候选人与两个候选人竞选的纳什均衡策略可以看成是相同的，即都选择（0.5，0。5，0.5）。三个候选人时在数学上还可能求出其他纯策略纳什均衡。如策略组合（0。4，0.6，0.8)就是其中一个。因为当三个候选人分别选择这些立场时，每项悠悠民选人没有改变自己立场的动机，因为该策略组合的结果是他取胜，而第二和第三个候选人则单独改变自己的立场并不能改善自己的命运,无论只是稍微改变自己的立场,还是与其他候选人的相对立场发生逆转，都没有限胜的机会。因此根据纳什均衡的定义，这是一个纯策略的纳什均衡.类似的熏略组合还有许多。不过，虽然在数学上这些纳什均衡完全符合纳什均衡的定义,但是它们在现实选举问题中的意义却并不大，因为这种纳什均衡本身只是弱均衡（部分博弈方改变策略不损害自己的利益）,而且部分博弈方（第二、第三个候选人）属于典型的“破坏者"，他们的策略改变不影响自己的利益，但却会对其他博弈方的利益产生决定性的影响，因此这些纳什均衡其实是不稳定的,不会是现实中的均衡结果。上述博弈模型不仅在政治选举问题中有意义,在分析经济经营活动中的选址和产品定位等问题方面也非常有用。读者可以自行找一些例子进行分析. 12、在纳什均衡分析的基础上，再进一步考虑运用其他均衡概念或分析方法，如风险上策均衡等进行分析. 首先,很容易根据划线法等找出本博弈的两个纯策略纳什均衡（U，R）和（D,L）。本博奕还有一个混合策略纳什均衡，即两博弈方各自以2/3、1/3的概率在自己的两个策略U、D和L、R中随机选择。但本博弈的两个纯策略纳什均衡中没有帕累托上策均衡，两个博弈方各偏好其中一个，而且另一个策略组合（U，L）从整体利益角度优于这两个纯策略纳什均衡,因此博弈方很难在两个纯策略纳什均衡的选择上达成共识。混合策略纳什均衡的效率也不是很高,因为有一定概率会出现（D，R）的结果。根据风险上策均衡的思想进行分析，当两个博弈方各自的两种策略都有一半可能性被选到时，本博弈的两个纯略纳什均衡都不是风险上策均衡，而策略组合（U，L)却是风险上策均衡。因为此时博弈方1选择U的期望得益是4，选择D的期望是益是3。5,博奕方2选择L的期望得益是4,选择R的期望得益是3.5.因此当两个博弈方考虑到上述风险因素时，他们的选择将是（U,L）,结果反而比较理想。如果博弈问题的基本背景支持,对本博弈还可以用相关均衡的思想进行分析。读者可自己作一些讨论。补充习题： 1. 判断下列表述是否正确，并作简单分析： a) 纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。 b) 如果以博弈有两个纯策略纳什均衡，则一定还存在一个混合策略均衡。 c) 上策均衡一定是帕累托最优的均衡吗？并说明哪一个均衡更稳定些。参考答案： a) 错误。只要任一博弈方单独改变策略不会增加得益，策略组合就是纳什均衡了.单独改变策略只能得到更小得益的策略组合是严格纳什均衡，是比纳什均衡更强的均衡概念。 b) 正确。这是纳什均衡的基本性质之一—-奇数性所保证的. c) 不正确。囚徒的困境博弈中的(坦白，坦白）就是上策均衡（同时也是纳什均衡），但该均衡显然不是帕累托最优的，否则就不会称其为囚徒的困境了。 2. 下面的得益矩阵表示一个两人静态博弈。问当a、b、c、d、e、f、g和h满足什么条件时，该博弈： a) 存在严格上策均衡; b) 可以用严格下策反复消去法简化或找出博弈的均衡; c) 存在纯策略纳什均衡。博弈方2 L R 博弈方1 U a,b c，d D e，f g，h 参考答案： a) 严格上策均衡是由各个博弈方的严格上策组成的策略组合。对于博弈方1，如果a〉e且c>g，则U是相对于D的严格上策；如果a〈e且c<g，则D是相对于U的严格上策。对于博弈方2,如果b〉d且f>h，则L是相对于R的严格上策;如果b〈d且f〈h，则R是相对于L的严格上策.上述两个博弈方各自有两种严格上策的相对得益情况的组合，总共可能构成四种严格上策均衡. b) 只要出现a>e且c〉g、a<e且c<g、b〈d且f>h或b〈d且f〈h四种情况中的任何一种，就可以用严格下策反复消去法简化或直接求出博弈的均衡，因为这个时候D、U、R、L分别是相应博弈方相对于各自另一策略的严格下策。 c) 纯策略纳什均衡是个博弈方单独改变策略都无利可图的策略组合。在上述博弈中，只要满足a≥e且b≥d、c≥g且d≥b、e≥a且f≥h,g≥c且h≥f四种情况中的任何一种，就存在纯策略纳什均衡。 3。如果双寡头垄断的市场需求函数是p（Q）=a—Q,两个厂商都无固定生产成本,边际成本为相同的c。如果两个厂商都只能要么生产垄断产量的一半，要么生产古诺产量,证明这是一个囚徒困境型的博弈。参考答案：根据市场需求函数p(Q）=a-Q和厂商的生产成本，不难计算出该市场的垄断产量为qm=(a—c）/2，双寡头垄断的古诺产量（纳什均衡产量)为qc=（a-c）/3。两个厂商都生产垄断产量的一半(a—c)/4时，各自的利润为两个厂商都产生古诺产量(a-c)/3时，各自的利润为：若一个厂商产生垄断产量的一半(a—c）/4，，另一方生产古诺产量（a—c）/3，前者利润为: 后者利润为：因此上述博弈用下列得益矩阵表示就是：企业乙 qm/2 qc 企业甲 qm/2 （a—c)2/8，(a-c）2/8 5(a—c)2/48,5(a—c）2/36 qc 5(a—c）2/36,5(a-c)2/48 （a—c)2/9，（a-c）2/9 分析这个得益矩阵可以看出，因为（a—c)2/8〈5(a—c）2/36，5(a—c）2/48〈(a-c）2/9，因此qm/2对两个厂商都是相对于qc的严格下策。所以该博弈唯一的纳什均衡，也是上策均衡，是（qc,qc)。这个纳什均衡的双方得益（a-c）2/9，显然不如双方都采用qm/2的得益（a—c)2/8，因此这个博弈是一个囚徒困境型的博弈。 4.试用反应函数法寻找博弈的纯策略纳什均衡及混合策略的纳什均衡：博弈方乙红黑 3，1 0，0 0，0 1，4 博红弈黑方甲（答案略）第三章复习题 1,3,4，6 第三章参考答案 1、子博弈完美纳什均衡即动态博弈中具有这样特征的策略组合；它们不仅在整个博弈中构成纳什均衡,而且在所有的子博弈中也都构成纳什均衡. 在动态博弈分析中引进子博弈完美纳什均衡概念的原因在于,动态博弈中各个博弈方的行为有先后次序，因此往往会存在相机抉择问题,也就是博弈方可能在博弈过程中改变均衡策略设定的行为，从而使得均衡策略存在可信性问题,而且纳什均衡无法消除这种问题，只有子博弈完美纳什均衡能够解决它。子博弈完美纳什均衡一定是纳什均衡,但纳什均衡不一定是子博弈完美纳什均衡。因此一个动态博弈的所有子博弈完纳什均衡是该博弈所有纳什均衡的一个子集。 3、博弈方的理性问题对动态博弈分析的影响肯定比对静态博弈分析的影响更大. 虽然博弈方的理性问题，博弈方实际理性与博弈分析假设的有差距,对博弈分析的影响在静态博弈分析中也存在，教材第二章多次提到了这个问题,但博弈方的理性问题对动态博弈分析的影响肯定更大。因为以子博弈完美纳什均衡和逆推归纳法为核心的动态博弈分析，对博弈方理性的要求比静态博弈的纳什均衡分析的更高，而且博弈方理性的缺陷还会引出理性判断的动态调整等更复杂的问题。例如某个博弈方由理性问题在某时刻“犯错误”，采用偏离子博弈完美纳什均衡的行为、路径，这时候后面阶段行为博弈方的判断和行为选择就会有困难。这种困难是动态博弈所特有的，在静态博弈分析中并不存在。 4、括号中的第一个数字代表乙的得益，第二个数字代表甲的得益，所以a表示乙的得益，而b表示甲的得益。在第三阶段，如果a＜0，则乙会选择不打官司.这时逆推回第二阶段，甲会选择不分,因为分的得益2小于不分的得益4。再逆推回第一阶段，乙肯定会选择不错,因为借的最终益0比不借的得出终得益1小。第三阶段，如果a＞0,则乙轮到选择的时候会选择打官司，此时双方得益是(a,b).逆推回第二阶段，如果b＞2，则甲在第二阶段仍然选择不分，这时候双方得益为（a，b）。在这种情况下再逆推回第一阶段，那么当a＜1时乙会选择不借,双方得益(1，0），当a＞1时乙肯定会选择借,最后双方得益（a，b）。在第二阶段如果b＜2，则甲会选择分，此时双方得益为（2，2）。再逆推回第一阶段，乙肯定选择借，因为借的得益2大于不借的得益1，最后双方的得益（2，2）. 根据上述分析我们可以看出，该博弈比较明确可以预测的结果有这样几种情况:（1）a＜0，此时本博弈的结果是乙在第一阶段不愿意借给对方，结束博弈，双方得益（1，0)，不管这时候b的值是多少；（2）0＜a＜1且b＞2，此时博弈的结果仍然是乙在第一阶段选择不错，结束博弈，双方得益(1，0）；(3）a＞1且b＞2,此时博弈的结果是乙在第一阶段选择借，甲在第二阶段选择不分,乙在第三阶段选择打,最后结果是双方得益(a，b)；（4）a＞0且b＜2，此时乙在第一阶段会选择借，甲在第二阶段会选择分，双方得益（2，2）。要本博弈的“威胁",即“打”是可信的，条件是a＞0。要本博弈的“承诺"，即“分"是可信的，条件是a＞0且b＜2。注意上面的讨论中没有考虑a=0、a=1、b=2的几种情况，因为这些时候博弈方的选择很难用理论方法确定和预测。不过最终的结果并不会超出上面给出的范围。 6、首先，设三个厂商的产量分别为q1、q2和q3.三个厂商的利润函数为: π1=(100-q1-q2-q3）q1—2q1 π2=（100—q1—q2—q3）q1—2q2 π3=(100—q1—q2-q3）q1—2q3 根据逆推归纳法，先分析第二阶段是厂商3的选择。将厂商1的利润函数对其产量求偏导数并令其为0得： =100—q1-q2—2q3-2=0 因此厂商3的反应函数为： q3=（98-q1—q2）/2 再分析第一阶段是厂商1和厂商2的决策。先把厂商3的反应函数代入厂商1和厂商2的利润函数得： π1=(100—q1—q2—q3)q1—2q1=q1 π2=（100—q1—q2—q3）q2—2q2=q2 分别对q1和q2求偏导数并令为0得: —q1=0 —q2=0 联立两个方程可解得q1=q2=98/3。再代入厂商3的反应函数得q3=（98-q1-q2）/2=98/6。把三个厂商产量代入各自的利润函数，可得三个厂商的利润分别为4802/9、4802/9和2401/9。补充习题： 1. 判断下列论述是否正确，并进行分析： a) 在动态博弈中，因为后行为的博弈方可以先观察对方行为后再选择行为，因此总是有利的. b) 逆推归纳法并不能排除所有不可置信的威胁。 c) 如果动态博弈的一个策略组合在均衡路径上是纳什均衡,就构成了该动态博弈的一个子博弈完美纳什均衡. 参考答案： a) 不正确.实际上动态博弈中先行为的博弈方往往有先行优势，因此常常是先行为的博弈方更有利而不是后行为的博弈方有利. b) 不正确。逆推归纳法最根本的特征就是能排除动态博弈中的所有不可信的行为，包括不可信的威胁和不可信的承诺。因为逆推归纳法使根据最大利益原则选择博弈方每阶段行为的，而且都考虑到了后续阶段的行为选择，因此用逆推归纳法找出的均衡策略组合中不可能包含不符合博弈方利益的不可信行为选择。 c) 不正确。因为动态博弈的子博弈完美纳什均衡不仅要求在均衡路径上是纳什均衡，而且还要求在非均衡路径上也是纳什均衡。 2. 两个兄弟分一块冰激凌.哥哥先提出一个分割比例,弟弟可以接受或拒绝,接受则按哥哥的提议分割，若拒绝就自己提出一个比例。但这时候冰激凌已化得只剩1/2了，对弟弟提议的比例哥哥也可以接受或拒绝,若接受则按弟弟的建议分割，若拒绝冰激凌会全部化光。因为兄弟之间不应该做损人不利己的是，因此我们假设接受和拒绝利益相同时兄弟俩都会接受。求该博弈的子博弈完美纳什均衡.如果冰激凌每阶段只化掉1/3，博弈的子博弈完美纳什均衡是什么? 参考答案: 哥弟哥出S1 不接受，出S2 接受 (S1,1-S1) 接受不接受，出S2 (S2/2,(1-S2)/2) ) (0,0) 根据问题，如果我们假设哥的方案是S1：1-S1，其中S1是自己的份额，弟的方案是S2：1-S2，S2是哥的份额，那么可用如下的扩展形表示该博弈：运用逆推归纳法先分析最后一阶段哥的选择。由于只要接受的利益不少于不接受的利益哥就会接受，因此在这个阶段只要弟的方案满足S2/2≥0，也就是S2≥0,哥就会接受,否则不会接受.由于冰激凌的份额不可能是负数，因此该条件实际上必然是成立的,也就是说因为哥不接受弟的方案冰激凌会全部化掉,因此任何方案哥都会接受。现在回到前一阶段弟的选择。由于弟知道后一阶段哥的选择方法,因此知道如果不接受前一阶段哥提出的比例，自己可以取S2=0,独享此时还未化掉的1/2块冰激凌；如果选择接受前一阶段哥的提议，那么自己将得到1-S1,显然只要1-S1≥1/2，即S1≤1/2,弟就会接受哥的提议。再回到第一阶段哥的选择.哥清楚后两个阶段双方的选择逻辑和结果，因此他在这一阶段选择S1=1/2，正是能够被弟接受的自己的最大限度份额,超过这个份额将什么都不能得到,因此S1=1/2是最佳选择. 综上，该博弈的子博弈完美纳什均衡是：哥哥开始时就提议按（1/2,1/2）分割，弟弟接受。每阶段只化掉1/3的情况请自己分析。 3. 如果学生在考试之前全面复习,考好的概率为90%，如果学生只复习一部分重点，则有50%的概率考好。全面复习花费的时间t1=100小时，重点复习之需要花费t2=20小时。学生的效用函数为：U=W-2e，其中W是考试成绩,有高低两种分数Wh和Wl，e为努力学习的时间。问老师如何才能促使学生全面复习？参考答案：本题中老师的调控手段是高分和低分的水平，或者高分和低分的差距，老师给学生高低分并没有成本,老师也不用考虑自己的收益或效用. 学生 0 0 全面重点高分（0.9） 0.9000()(900.8()(((((((((((((((((()（）高分（0.5）低分（0.1）低分（0.5） (Wh-200））（Wl-200））（Wh-40））（Wl-40））如果引进不确定性的博弈方O，可以得到该博弈的扩展形如下：学生选择全面复习的期望得益是 U1=0.9（Wh—200）+ 0.1 （Wl—200 ) 重点复习的期望得益是 U2=0。5（Wh—40）+ 0.5(Wl-40 ）只有当U1U2时学生才会选择全面复习.根据U1U2我们可以算出 Wh— Wl 400。这就是老师能有效全面复习需要满足的条件。其实在奖学金与成绩挂钩时，Wh- Wl也可以理解成不同等奖学金的差额。 4。考虑如下两人博弈：有两个局中人，A 和B,A首先行动，他可以选择“上"或“下"。如果A选择上，则博弈结束,每个局中人得到支付2.如果A选择下，则轮到B作决策,B可以选择“左”或“右 "。如果B选择左，则双方都只得到0；如果B选择右,则 A得3，B 得1。 1）请用博弈树的形式表述这个博弈,并判断这个博弈是完美信息博弈还是不完美信息博弈。 2)用逆向法求出这个博弈的均衡结果，这个均衡结果是子博弈精炼纳什均衡吗？ (参考答案略) 5、1）利用触发策略求两次重复下面得益矩阵表示的静态博弈解. 2）如果策略组合（L，D)的得益改为(2,7），请问是否存在触发策略使得第一阶段实现得益（5，6）？ L M R 3,2 0，0 6，1 0，1 1,2 0,0 0,0 0,0 5，6 参考答案: 1）博弈方1第一阶段选D，第二阶段选U;博弈方2 第一阶段选R，如果第一阶段结果是(D,R）, 则第二阶段选L，否则选M。 2）如果策略组合(L，D）的得益改为（2，7），则不存在触发策略使得第一阶段实现得益（5，6）。 1 6、设两个博弈方之间的一个三阶段动态博弈如右图所示, 1）若a，b分别为10和15，该博弈 L R 的子博弈完美纳什均衡策略是什么？ 2 2） R-M—T 是否可能成为该博弈的子博弈完美纳什均衡路基路径,为什么？ (30,0） 3) 在什么情况下博弈方2会获得30 M N 或更高的得益。 1 (20，20） S T (a，b) (5，30) 参考答案: 1）该博弈的子博弈完美纳什均衡策略是：博弈方1在第一阶段选L，在第三阶段选S，博弈方2在第二阶段选N. 2）不可能，因为R—M—T给博弈方1的得益5小于他在第一阶段选L的得益30,因此该路径对应的策略组合不构成纳什均衡. 3）当a〉30，b≥30时，博弈方2会获得30或更高的得益。第四章复习题 2，3，6，8 2、火车站和机场餐饮商业服务的顾客往往都是一次性的,回头客、常客比较少，这些经济交易具有一次性博弈的特征,它们的价格总是较高而质量又会差一些，顾客也会尽量不在这些地方购买商品和消费。在一般商业区和居民区的餐饮商业服务则回头客和常客较多，有明显的重复博弈特征，在居民区购买商品和消费的老顾客一般能得到比较公平、优惠的价格，还能得到较好的服务，甚至有些还可以信用消费(赊账）,因此消费者一般会比较放心地消费。这就是现实生活中重复博弈和一次性博弈效率不同的典型例子之一。 3、从研究对象和问题特征看，有限次重复博弈研究的主要是有明确结束时间的(合作、竞争等）关系，无限次重复博弈研究的主要是没有明确结果时间，或者较长期的关系. 从分析方法的角度,动态博弈和重复博弈分析中常用的逆推归纳法在无限次重复博弈中无法直接运用，因为没有最后一次重复。因此无限次重复博弈分析的主要方法是构造法，即根据特定效率意义等构造了博弈完美纳什均衡。此外，也可以运用某些技巧解决问题，如教材中利用三阶段讨价还价博弈分析无限阶段讨价还价博弈的技巧。从博弈的结果看,无限次重复博弈的效率往往高于有限次重复博弈，有些在有限次重复博弈中无法实现的效率较高的结果，在无限次重复博弈中有可能实现。例如囚徒的困境型博弈的无限次重复博弈和有限次重复博弈就体现了这种差别。两类重复博弈民间定理的差异也说明了这一点。最后,在重复次数不多的有限次重复博弈中不一定要考虑得益贴现问题，在我限次重复博弈问题中这是必须考虑的。上述区别在理论方面最主要的启发是重视有限次和无限次重复博弈的区别，区分研究这两类博弈问题是非常重要的，在实践方面的主要启发是促进和保持经济关系的长期稳定性，对于提高社会经济效率等常常有非常重要的意义。 6、用画线法容易找出该博弈的两个纯策略纳什均衡（T，L）和（M，R）。这两个纳什均衡的得益都帕累托劣于(B，S）。一次性博弈中效率较高的（B，S）不可能实现.但该博弈的结构表明存在双方合作的利益,在两次重复博弈中也有构造惩罚机制的条件,因此我会考虑运用试探合作的触发策略争取部分实现（B，S），提高博弈的效率。我作为博弈方1会采用这样的触发策略:第一次重复采用B；第二次重复时，如果前一次的结果是（B，S)，则采用M,如果前一次的结果是其他,则采用T。如果另一个博弈方有同样的分析能力,或者比较有经验，那么他（或她)也会采用相似的触发策略：在第一次重复时采用S；第二次重复时，如果前一次的结果是(B，S），则采用R，否则采用L。双方采用上述触发策略构成一个子博弈完美纳什均衡，因此是稳定的。这时候前一次重复实现了（B，S），提高了博弈的效率。当然,上述触发策略也是有风险的，因为当另一个博弈方不理解和没有采用上述策略时,我的得益会较低。当然如果考虑到人们具有学习进步的能力,而且缺乏分析和学习能力，采用效率较低策略的博弈方长期中会逐步被淘汰掉，那么采用上述触发策略的合理性就得到了进一步的支持。 8、博弈方2 L R 8，6 4,10 4,8 6，4 2,0 0，2 博 T 弈 M 方 D 1 首先很容易看出，博弈方1的D策相对于T策和M策都是严格下策，因此可以消去，消去博弈方1的D策后四个策略组合中不存在纯策略纳什均衡.根据混合策略纳什均衡的计算方法，不难算出混合策略纳什均衡为：博弈方1概率分布（1/2，1/2）在T和M中随机选择，博弈方2则以概率分布（1/3，2/3）在L和R中随机选择。由于上述静态博弈是没有纯策略纳什均衡的严格竞争博弈，因此在有限次重复博弈和无限次重复博弈中,两博弈方的均衡策略都是简单复重原博弈的混合策略纳什均衡。补充习题: 1. 判断下列表述是否正确，并简单讨论： a) 有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。参考答案：正确。因为最后一次重复就是动态博弈的最后一个阶段，根据子博弈完美纳什均衡的要求，博弈方在该阶段的选择必须构成纳什均衡。因为最后一次重复就是原博弈本身,

展开阅读全文