博弈论-威胁与承诺.ppt_咨信网zixin.com.cn

资源描述

第四讲第四讲威胁与承诺威胁与承诺房琳经济与管理学院2015.9game猜数字游戏任选一名学生与老师共同完成老师在0-100之中任选一个数字写好；学生在0-100之间猜数字，有5次机会，每次猜完后老师告知大于或小于目标数字。S.L.F.L.目录4.1 动态博弈的描述4.2 威胁与承诺的可信性4.3 序贯理性4.4 逆推归纳法4 尝试考虑以下问题1、是不是信息越多越有利？2、过程是否重要？3、动态博弈与静态博弈有哪些异同之处？4、人们对已经过去的博弈是更注重结果还是更注重过程？其意义何在？4.1 动态博弈的描述4.1 动态博弈的描述动态博弈：博弈方先后、依次进行选择、行动，且后行动方知道先行动方的选择。静静态博弈：博弈：同同时或可看做同或可看做同时动态博弈博弈序序贯博弈博弈一方在行一方在行动时不知道不知道对方策略方策略行动有先后顺序，不同的参与人在不同时点行动，先行动者的选择影响后行动者的选择空间，后行动者可以观察到先行动者做了什么选择。为了做出最优的行动选择，每个参与人都必须这样思考问题：如果我如此选择，对方将如何应对？如果我是他，我将会如何行动？给定他的应对，什么是我的最优选择？下棋、买东西、谈婚论嫁4.1 动态博弈的描述为进入一行业，进入者必须付出4000万元的（沉没）成本建工厂。进入者不进入，在位者能继续定高价，享受垄断利润10000万元。进入者进入：在位者可以“容忍”，维持高价，此时在位者只能赚到5000万元，进入者将赚到1000万元的净利润；在位者可以“阻挠”，把价格压低，这种商战导致双方的低利润：在位者的利润下降到3000万元，进入者将有1000万元的净损失。进入不进入，阻挠不阻挠？4.1 动态博弈的描述每一种可能行动组合下的收益是共同知识如果企图进入者不进入，则在位者独享10000万元利润；如果进入而在位者容忍，则在位者得5000万元,进入者利润1000万元；如果进入并且在位者阻挠，则在位者利润3000万元而进入者-1000万元。4.1 动态博弈的描述信息完全且完美信息完全且完美4.1 动态博弈的描述不进入不进入进进入入容忍容忍阻挠阻挠(0,10000)(1000,5000)(-1000,3000)扩展扩展形表示法形表示法(博弈树）博弈树）扩展形表示法扩展形表示法(博弈树博弈树)的的构成：构成：节点节点（nodesnodes）决策节点（决策节点（decision nodesdecision nodes）终点节（终点节（terminal nodesterminal nodes）树枝树枝（branchesbranches）：每一条树枝代表一个行动）：每一条树枝代表一个行动信息集信息集（information setsinformation sets）：参与人在决策节）：参与人在决策节点选择行动时，需要有关信息；对此前博弈过程点选择行动时，需要有关信息；对此前博弈过程的一个全部而明确的认识就构成一个信息集。的一个全部而明确的认识就构成一个信息集。4.1 动态博弈的描述战略在动态博弈中，博弈方的战略是在不同时点做出的，因此战略不再是单一的行动。是一个完备的行动计划，为博弈方在每个时点上规定一个动作。“华容道”、刘备“过江招亲”4.1 动态博弈的描述战略一种无条件的回应规则限制/规定自己的行动，达到博弈的目的（提前说明规则）一种威胁或承诺楚国孙叔敖令治水渠4.1 动态博弈的描述S.L.F.L.4.2 威胁与承诺的可信性4.2.1 威胁与承诺4.2.2 一个威胁可信性问题4.2.3 一个承诺可信性问题4.2.4 威胁与承诺的可行性S.L.F.L.可信性动态博弈中，先行为的博弈方是否应该相信后行为博弈方会采取某种策略或行为。后行为博弈方的许诺是否可信呢？后行为博弈方的威胁是否可信呢？S.L.F.L.4.2.1 威胁与承诺威胁对不肯与你合作的对手进行惩罚的一种回应规则。强迫性威胁人质事件阻吓性威胁核武器S.L.F.L.4.2.1 威胁与承诺承诺对愿意与你合作的人提供回报的一种回应规则。强迫性许诺证人阻吓性许诺劝诱S.L.F.L.威胁与承诺有时难以区分打卡扣钱制度威胁：迟到一次罚款10元（警告）承诺：不迟到就不扣钱（保证）4.2.1 威胁与承诺S.L.F.L.当实施威胁策略或承诺策略时，首先考虑的应该是可信度问题。进口食材的威胁曹操寿宴兄弟之间承诺与威胁的可信度有多大，策略成功的概率就有多大。4.2.1 威胁与承诺S.L.F.L.4.2.2 一个威胁可信性问题“只要进入就阻挠”的威胁是否可信？不进入不进入进进入入容忍容忍阻挠阻挠(0,10000)(1000,5000)(-1000,3000)S.L.F.L.4.2.2 一个威胁可信性问题事实上，这个威胁是不可信的，因为理性的在位者知道（如同潜在进入者所知），一旦进入已经发生了，容忍并保持高价是符合自己利益的。容忍得5000万元，阻挠得3000万元。不进入不进入进进入入容忍容忍阻挠阻挠(0,10000)(1000,5000)(-1000,3000)稳定的结果是稳定的结果是（进入，容忍）进入，容忍）S.L.F.L.新的博弈格局：4.2.2 一个威胁可信性问题不进入不进入(0,7000)进进入入容忍容忍阻挠阻挠(1000,2000)(-1000,3000)设在位者在位者现在（而不是在（而不是后）投后）投资于万一于万一进入入发生生时增加增加产量和量和进行价格行价格战所需所需要的要的额外的生外的生产能力，成本能力，成本是是3000万元。万元。当然，如果今后在位者当然，如果今后在位者保持高价（不管是否有保持高价（不管是否有进入）入），这个个额外成本将减少在位外成本将减少在位者的得益者的得益。S.L.F.L.不进入不进入(0,7000)进进入入容忍容忍阻挠阻挠(1000,2000)(-1000,3000)4.2.2 一个威胁可信性问题阻阻挠的威的威胁是完全可是完全可信的信的，它是在位者投，它是在位者投资额外外生生产能力的决策的能力的决策的结果。果。（3000万元万元2000万元）万元）潜在潜在进入者入者现在知道在知道进入的入的结果是商果是商战，所以不，所以不进入入该行行业是理智的。是理智的。20世纪70年代，美国杜邦公司在二氧化钛行业中阻止进入，投资近4亿美元增加生产能力S.L.F.L.4.2.2 一个威胁可信性问题先来后到的启示后进者信息多，但利润不如先进入者。S.L.F.L.4.2.3 一个承诺可信性问题开金矿甲去开采一价值4万元的金矿，缺1万元，乙恰好有1万元可以投资。甲向乙借1万元开金矿，并“许诺”成功后与其对半分成。乙是否该借钱给甲呢？如果乙借钱给甲，甲是否该分钱给乙呢？S.L.F.L.甲的承诺是否可信？4.2.3 一个承诺可信性问题（1 1，0 0）乙甲借借借借不借不借不借不借分分分分不分不分不分不分（2 2，2 2）（0 0，4 4）S.L.F.L.根据自身利益最大化原则，甲的选择是不分，而乙清楚甲的行为准则，则选择不借。对乙来讲，本博弈中甲有一个不可信的承诺。怎样使甲的承诺变为可信，既让乙能保住本钱，又能有更多的收益呢？关键在于增加一些对甲行为的约束。4.2.3 一个承诺可信性问题（1 1，0 0）乙甲借借借借不借不借不借不借分分分分不分不分不分不分（2 2，2 2）（0 0，4 4）S.L.F.L.若乙采取法律手段，即打官司保护自己的利益，则产生了一个新的博弈过程如图所示。在新的博弈中，乙的唯一选择是打官司，对甲来讲，乙打官司的威胁是可信的，是肯定会信守的，他最理智的选择就是分。4.2.3 一个承诺可信性问题乙乙甲甲乙乙打打（2，2）不分不分分分不借不借借借（0，4）（1，0）不打不打（1，0）法律保障的开金矿博弈法律保障的开金矿博弈分钱打官司都可信分钱打官司都可信S.L.F.L.乙的策略：第一阶段借，如甲在第二阶段选择不分，则第三阶段选择打；甲的策略：若乙第一阶段借，则他在第二阶段就选择分。在双方这样的策略组合下，本博弈的路径是（借，分），双方得益为（2，2），实现有效率的理想结果。4.2.3 一个承诺可信性问题乙乙甲甲乙乙打打（2，2）不分不分分分不借不借借借（0，4）（1，0）不打不打（1，0）S.L.F.L.若乙采取法律手段，但结果是劳民伤财，使自己经济上受损。在新的博弈中，乙的唯一选择是不打官司，对甲来讲，乙打官司的威胁是不可信的，甲最理智的选择就是不分。4.2.3 一个承诺可信性问题法律保障不足的开金矿博弈法律保障不足的开金矿博弈分钱打官司都不可信分钱打官司都不可信乙乙甲甲乙乙打打（2，2）不分不分分分不借不借借借（0，4）（-1，0）不打不打（1，0）S.L.F.L.开金矿的启示让别人有机会对你发出一个威胁永远不是好事。你大可以选择按照对方的希望行动，却没有必要等到听见一个威胁。4.2.3 一个承诺可信性问题S.L.F.L.4.2.4 威胁与承诺的可信性以色列的一贯原则：坚决不跟恐怖分子谈判这是一个威胁，意在阻吓恐怖分子，打消他们企图劫持人质，以此索取赎金或者要求释放犯人的念头。假如这个决不谈判的威胁是可信的，那么，恐怖分子就会意识到他们的行动注定徒劳无功。S.L.F.L.项羽破釜沉舟：巨鹿之战项羽率领大军渡河。然后“破釜沉舟”,命令士兵只携带三日粮，以此表示有进无退。于是历史上闻名的巨鹿之战上演了：当时，诸侯军救巨鹿的十多支队伍，却没有人敢向围城的秦军挑战。而只有项羽的军队勇猛、视死如归，以一当十。这一战不但打垮了秦军主力，也将秦军不可战胜的神话彻底击破，更一举奠定了“楚兵冠诸侯”的英明。在军事上，孤注一掷有时并不是一个愚蠢的策略。军队通常借助断绝自己后路的做法而达成遵守承诺的目标。4.2.4 威胁与承诺的可信性S.L.F.L.4.3 序贯理性4.3.1 动态博弈中的理性要求4.3.2 子博弈4.3.3 子博弈完美纳什均衡S.L.F.L.4.3.1 动态博弈中的理性要求在动态博弈中，博弈方如果是理性的，他应该“向前看”不管事前制订的计划如何，他在新的时点上做决策都应该根据当前的情况选择最优的行动。运筹帷幄，决胜于千里之外将在外，军令有所不受S.L.F.L.序贯理性要求博弈方在一个接一个的决策节点上都要选择最优行动。进一步，如果某个博弈方是序贯理性的，那么他所使用的战略将是由他在每个时点上的最优行动组成。该战略不仅在事前最优，也是事后最优的，将满足动态一致性原则。4.3.1 动态博弈中的理性要求4.3.2 动态博弈中的子博弈动态博弈要求博弈方是序贯理性的，这意味着从任意一个决策点开始的决策情形就像是在原有博弈基础上开始一个“新的博弈”。4.3.2 动态博弈中的子博弈子博弈：能够自成一个博弈，由一个动态博弈的某阶段（第一阶段除外）开始的后续博弈阶段构成。具备进行博弈所需的各种信息。（1 1，0 0）乙甲乙借借借借不借不借不借不借分分分分不分不分不分不分（2 2，2 2）不打不打不打不打打打打打（0 0，4 4）（1 1，0 0）开金矿开金矿开金矿开金矿（守信）（守信）（守信）（守信）子博弈子博弈子博弈子博弈38 4.3.2 动态博弈中的子博弈注意：原博弈的初始节点开始的博弈为原博弈本身，不称它为原博弈的子博弈，即第一个节点不能作为子博弈的初始节点。可以看出，每个子博弈都代表这博弈方所面临的一个决策时机或情形，即每个子博弈都是一个独立的博弈，那么也有它的纳什均衡。一个博弈中有多个子博弈，那么博弈方在每一个子博弈上选择的最优行为就构成相应子博弈的纳什均衡。4.3.3 子博弈完美纳什均衡4.3.3 子博弈完美纳什均衡在动态博弈中由于博弈过程是逐步深入的，这一过程由每个阶段所采取的策略构成，由此引出“路径”的概念。路径：从第一阶段开始通过每阶段一个行为，最后达到博弈结束的一个终端各博弈方的行为组合。找到了路径也就找到了一个分阶段的策略组合，这一策略组合恰似一个完整的计划，计划的最终实现取决于过程中各阶段的实现。4.3.3 子博弈完美纳什均衡在开金矿案例中，策略组合（借，分）是一个稳定的策略组合，因为如果不分，则有乙打官司的威胁，这是双方都不愿得到的结果。“稳定”意味着博弈方都不会单独改变策略，这恰似纳什均衡的概念。（1 1，0 0）乙甲借借借借不借不借不借不借分分分分不分不分不分不分（2 2，2 2）（1 1，0 0）开金矿（信守）开金矿（信守）开金矿（信守）开金矿（信守）乙打打打打不打不打不打不打（1 1，0 0）（0 0，4 4）4.3.3 子博弈完美纳什均衡由于动态博弈与静态博弈有较大的差异，那么如何才能使静态博弈中的纳什均衡在动态博弈中亦有相应的概念发展？以开金矿为例（注意此例与以前开金矿例子的差异）开金矿博弈的变形甲开金矿，向乙借钱，如果甲在获利之后不分钱给乙，而乙打官司对自己并没有好处，不能增加自己的利益时，博弈发生了变化。4.3.3 子博弈完美纳什均衡4.3.3 子博弈完美纳什均衡逆推可得，乙不借，乙打官司的威胁不可信。甲在第二阶段分的许诺也变为不可信。结局是，甲开不成金矿，乙保本，甲失去挣钱的机会。（2，2）（1，0）（1，0）乙乙甲甲乙乙借借不借不借分分不分不分不打不打打打（0，4）开金矿开金矿（2，2）（1，0）（1，0）乙乙甲甲乙乙借借不借不借分分不分不分不打不打打打（0，4）开金矿开金矿变形变形按照静态博弈的分析方法，（借，分，打）的策略组合为一个纳什均衡，因为任何一方都不会单独改变策略而降低自己的得益这与逆推法得到的结论相矛盾，原因在于路径（借，分）的纳什均衡策略组合包含了一个不可信的威胁，即乙在第三阶段会选择打官司的行为是不可信的.4.3.3 子博弈完美纳什均衡4.3.3 子博弈完美纳什均衡由此需要对静态博弈中的纳什均衡的概念有所调整，即应满足：是纳什均衡，从而具有策略稳定性不能包含任何不可信的许诺或威胁这样的动态博弈组合策略称为子博弈完美纳什均衡。4.3.3 子博弈完美纳什均衡定义（Selten泽尔滕，1965）：如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成一个纳什均衡，则称该策略组合为一个“子博弈完美纳什均衡”。Subgame-Perfect Nash Equilibrium。直观上看到的是：各参与人稳定的行动选择，它们构成一条走得通的路均衡路径(equilibrium path)。动态博弈所应注意的两点要求各博弈方的策略对每阶段每种可能情况都设定一个行为方案假定所有博弈方都是理性的且不会犯错误4.3.3 子博弈完美纳什均衡S.L.F.L.4.4 逆推归纳法4.4.1 逆推归纳法海盗分金4.4.2 逆推归纳法应用4.4.3 理性与非理性S.L.F.L.4.4.1 逆推归纳法在动态博弈中如何求解？动态博弈的特点是：在采取某一种决策时必须对其后可能进行的子博弈有充分的了解，这样才能很好的进行博弈并得到合理的结果（基于理性和可信性，相当于对后博弈行为方的合理假设）。由此，对于完全且完美信息的动态博弈其基本求解方法，可由最后阶段的子博弈逆推来决定采取合适的策略-逆推归纳法。4.4.1 逆推归纳法逆推归纳法：从动态博弈的最后一个阶段或最后一个子博弈开始，逐步向前倒推以求解动态博弈的方法。用逆推归纳法求解开金矿乙借借借借不借不借不借不借（2 2，2 2）（1 1，0 0）逆推第二步逆推第二步逆推第二步逆推第二步（1 1，0 0）乙甲借借借借不借不借不借不借分分分分不分不分不分不分（2 2，2 2）（1 1，0 0）逆推第一步逆推第一步逆推第一步逆推第一步4.4.1 逆推归纳法 5个海盗抢了100颗宝石，每颗大小一样价值连城。1.抽签决定自己的号码（1,2,3,4,5），2.首先，由1号提出分配方案，然后大家 5人进行表决，当且仅当超过半数的人同意时，按照他的提案进行分配，否则将被扔进大海喂鲨鱼3.如果1号死了，再由2号提出分配方案，然后大家4人进行表决，当且仅当超过半数人同意时，按照他的提案进行分配，否则将被扔入大海喂鲨鱼4.以次类推，直到找到一个每个人都接受的方案4.4.1 逆推归纳法假设每个海盗都是很聪明的人，都能很理智的判断得失第一个海盗提出怎样的分配方案才能使自己得到最多的宝石呢？4.4.1 逆推归纳法逆推过程 1 2 3 4 5 0 100 99 1 0 97 0 2 1 97 0 1 0 2结果:(97,0,1,0,2)4.4.1 逆推归纳法强盗分金的启示在该模型中，任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么，并用最小的代价获取最大收益，拉拢“挑战者”分配方案中最不得意的人们。“不谋万事者，不足谋一时；不谋全局者，不足谋一域。”4.4.1 逆推归纳法先发优势和后发劣势1号看起来最有可能被喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。这不正是全球化过程中先进国家的先发优势吗？而5号看起来最安全，甚至还能坐收渔人之利，却因不得不看别人脸色行事而只能分得一小杯羹。这难道不是后发劣势的写照？4.4.1 逆推归纳法4.4.1 逆推归纳法动态规划动态规划的理论基础是最优性原理。它是一种解决多阶段决策（序贯决策）过程最优化的一种数学方法。应用：最优路径问题、资源分配问题、生产调度、库存、装载、排序、设备更新、最优工艺等 4.4.2 逆推归纳法应用A、游戏中的逆推归纳全班同学分为a、b两组，相对而立，中间地面竖立21支小旗。a、b两组一次轮流拿走这些小旗；每组可选择取走1支、2支、3支旗，不能一直都不取，也不能取走4支或4支以上。哪个小组取走最后一只旗，就算获胜。不管这支旗是最后1支、2支还是3支中的1支。A、游戏中的逆推归纳获胜的秘诀是：不管如何选择，最后一轮留给对方4支旗上一轮留给对方8支旗再上一轮留给对方12支旗前一轮留给对方16支旗前一轮留给对方20支旗4.4.2 逆推归纳法应用B、商业中的逆推归纳法“编辑部的启事”：亲爱的读者朋友，从1月1日起，征订本报的金额将增加，全年费用为460元。这很遗憾，但我们不得不这样做，现在纸张涨价，销售劳务费也太提高了，报社要生存。在这种新形势下，我们增加了订费。对于你们来说，完全有权拒绝订阅本报，因为它涨价了。您可以把这460元用在比订费更急需的地方：比如460元就是一张短途机票的价格，可以去朋友一起去酒吧喝一次，或者是购买一条香烟但是，这些消费都是一次性的，而如果您订阅本报，将全年持有天天都有一份。亲爱的读者，不管您明年是否继续订阅本报，最后我们仍要感谢您多年来的支持。4.4.2 逆推归纳法应用“逆推法”处理问题是报社成功的关键。先退出读者的想法，再为读者分析，这样想并不是最好的选择。“逆推归纳法”教给我们善于打动人心的经销策略和手段。“超市洗衣粉售卖案例”4.4.2 逆推归纳法应用C、生活中的逆推归纳法李恕权台湾歌手，唯一获得格莱美音乐大奖提名的华裔歌手。挑战你的信仰4.4.2 逆推归纳法应用你今天的生活，是由几年前所做的选择决定的；而你今天的选择，会影响你今后几年的生活。人生博弈的法则什么样的选择决定什么样的人生。4.4.2 逆推归纳法应用你的时间去哪儿了？4.4.3 理性与非理性如：海盗分金博弈中 1 2 3 4 5 0 100 99 1 0 97 0 2 1 97 0 1 0 2若其他海盗联合起来选择“非理性”，建议重新分配，这种非理性行为恰恰是理性的。又如：后续可能性太多而无法分析，于是考虑仅知道有限后续阶段的情况？许诺有限非理性，如何考虑？比如假设非理性的次数小于等于k？下棋K叉树算法博弈构成的“长短”与稳定性，不可预测性等4.4.3 理性与非理性旅行者困境两个旅行者从一个以出产细瓷花瓶著名的地方旅行回来，他们都买了花瓶。提取行李的时候，发现花瓶被摔坏了。他们向航空公司索赔。航空公司知道花瓶的价格总在八九十元的价位浮动，但是不知道两位旅客买的时候的确切价格。4.4.3 理性与非理性航空公司请两位旅客在100元以内自己写下花瓶的价格。如果两人写的价格一样(合作)，航空公司将认为他们讲真话，于是按照他们写的数额赔偿如果两人写的不一样（背叛），航空公司就认定写得低的旅客讲的是真话，并且原则上照这个低的价格赔偿，而且对讲真话的旅客奖励2元钱，对讲假话的旅客罚款2元。就为了获取最大赔偿而言，本来甲乙双方最好的策略就是都写100元，这样两人都能获赔100元。该博弈为一个蜈蚣博弈。4.4.3 理性与非理性该博弈是说明逆推归纳法和博弈分析困难的经典博弈，1 和 2 两个博弈方轮流选择的多阶段博弈，共198个阶段。如下图n根据逆推归纳法分析可得，博弈方会在第一阶段选择根据逆推归纳法分析可得，博弈方会在第一阶段选择 D D 结束博弈，双方得益都是结束博弈，双方得益都是 1 1。蜈蚣博弈问题蜈蚣博弈可看出，完全理性下的逆推归纳法存在缺陷：从逻辑上推理，一开始应开始选择不合作；但事实是，一开始就合作的收益为100，不合作的收益仅为1，合作才是最优的。4.4.3 理性与非理性另一个事实是：即使双方一开始都采取合作策略，一直往前走，这种合作也坚持不到最后一步只要是理性的人，处于自己利益的考虑，在某一个时刻，肯定会采取不合作策略。逆推归纳法试分析动态博弈的有效方法，不能因为其预测和实际不符就完全否定其在分析和预测中的可行性。4.4.3 理性与非理性

展开阅读全文