混合策略纳什均衡.ppt_咨信网zixin.com.cn

资源描述

3 混合策略纳什均衡混合策略纳什均衡3.1 混合策略纳什均衡3.2 多重纳什均衡博弈3.3 多重纳什均衡博弈的分析主要内容主要内容猜硬币博弈-1，11，-11，-1-1，1正面反面猜硬币方猜硬币方盖盖硬硬币币方方正面反面（1）不存在前面定义的纳什均衡策略组合（2）关键是不能让对方猜到自己策略这类博弈很多，引出混合策略纳什均衡概念这类博弈很多，引出混合策略纳什均衡概念3.1 混合策略纳什均衡行行参参与与人人列参与人列参与人混合策略混合策略：在博弈中，博弈方的策略空间为，则博弈方以概率分布随机在其个可选策略中选择的“策略”，称为一个“混合策略”，其中对都成立，且混合策略扩展博弈混合策略扩展博弈：博弈方在混合策略的策略空间（概率分布空间）的选择看作一个博弈，就是原博弈的“混合策略扩展博弈。设行参与人的策略选择概率为设行参与人的策略选择概率为，列参与人的，列参与人的策略选择概率为策略选择概率为则参与人则参与人1的期望支付为的期望支付为则参与人则参与人2的期望支付为的期望支付为混合策略纳什均衡混合策略纳什均衡设是人策略式博弈的一个混合策略组合，如果对于所有的，对于每一个都成立，则称混合策略组合是这个博弈的一个纳什均衡。注意：在纳什均衡下，没有参与人有积极性单独偏离或改注意：在纳什均衡下，没有参与人有积极性单独偏离或改变该策略或策略组合。变该策略或策略组合。例1流浪汉流浪汉找工作找工作游荡游荡0,0-1,1-1,33,2政府政府救济救济不救济不救济假设政府救济的概率为；流浪汉找工作的概率为；则博弈方1的混合策略博弈方2的混合策略2，35，23，11，5CDAB博弈方博弈方2博博弈弈方方1 策略得益博弈方1 （0.8，0.2）2.6博弈方2 （0.8，0.2）2.6例2例例3 扑克牌对色游戏扑克牌对色游戏B红红黑黑-1,11,-11,-1-1,1A红红黑黑假设A出红牌的概率为；B出红牌的概率为；则因此A的最佳反应函数为因此A的最佳反应函数为同理同理纳什均衡是：纳什均衡是：A和和B出红牌还出红牌还是出黑牌的概率都是是出黑牌的概率都是1/2.反应函数法反应函数法练习练习1：利用反应函数法找出政府与流浪汉博弈的纳什均衡：利用反应函数法找出政府与流浪汉博弈的纳什均衡流浪汉流浪汉找工作找工作游荡游荡0,0-1,1-1,33,2政府政府救济救济不救济不救济假设政府救济的概率为；流浪汉找工作的概率为；则纳什均衡是：纳什均衡是：政府以政府以1/2的概的概率选择救助，流浪汉以率选择救助，流浪汉以1/5的的概率选择找工作。概率选择找工作。练习练习2：利用反应函数法找出情侣博弈的所有纳什均衡：利用反应函数法找出情侣博弈的所有纳什均衡丽娟丽娟足球足球芭蕾芭蕾1,20,00,02,1大海大海足球足球芭蕾芭蕾例例4（激励的悖论）（激励的悖论）有一家公司为了防止盗窃聘请了一名门有一家公司为了防止盗窃聘请了一名门卫，但是长期以来却发现仍有盗窃案件发生，公司讨论了两卫，但是长期以来却发现仍有盗窃案件发生，公司讨论了两种方案，一是只要有失窃案件，则加重惩罚门卫，另一方案种方案，一是只要有失窃案件，则加重惩罚门卫，另一方案是，只要抓住小偷，则联合公安机关加重对小偷的惩罚。请是，只要抓住小偷，则联合公安机关加重对小偷的惩罚。请分析哪种方法对降低盗窃率有长效作用？分析哪种方法对降低盗窃率有长效作用？V，-D-P，00，S0，0睡不睡偷不偷守卫守卫小小偷偷假设小偷选择偷的概率为；守卫选择睡觉的概率为；则V，-D-P，00，S0，0睡不睡偷不偷守卫守卫小小偷偷加重对守卫的处罚：短期中的效果是使守卫尽职加重对守卫的处罚：短期中的效果是使守卫尽职在长期中并不能使守卫更尽职，但会降低盗窃发生的概率在长期中并不能使守卫更尽职，但会降低盗窃发生的概率分析得到纳什均衡0-D-D守卫得益(睡)S小偷偷的概率1V，-D-P，00，S0，0睡不睡偷不偷守卫守卫小小偷偷加重对小偷的处罚：短期内能抑制盗窃发生率加重对小偷的处罚：短期内能抑制盗窃发生率长期并不能降低盗窃发生率，但会使得守卫更多的偷懒睡觉长期并不能降低盗窃发生率，但会使得守卫更多的偷懒睡觉0-P-P小偷得益(偷)V守卫睡的概率1监督博弈的纳税检查A 为应纳税款，C为检查成本，F是偷税罚款。假定 C甲离甲离B损失损失乙离乙离B损失损失=16对于第一个博弈，对于第一个博弈，甲离甲离A损失损失乙离乙离A损失损失4 甲离甲离B损失损失乙离乙离B损失损失=9对于第二个博弈，对于第二个博弈，3）聚点均衡利用博弈设定以外的信息和依据进行选择的均衡文化、习惯或者其他各种特征都可能是聚点均衡的依据城市博弈（城市分组相同）、时间博弈（报出相同的时间）是聚点均衡的典型例子4）相关均衡5，14，40，01，5LR博弈方博弈方2UD博博弈弈方方1相关均衡例子相关均衡例子三个三个纳什均衡纳什均衡：（U，L）、（D，R）和混合策略均衡（1/2，1/2），（1/2，1/2）结果都不理想，不如（D，L）。可利用聚点均衡（天气，抛硬天气，抛硬币）币），但仍不理想。相关装置：相关装置：1、各、各1/3概率概率A、B、C2、博弈方博弈方1看到是否看到是否A，博弈方博弈方2看看到是否到是否C3、博弈方博弈方1见见A采用采用U，否则否则D；博弈博弈方方2见见C采用采用R，否则否则L。相关均衡要点：1、构成纳什均衡2、有人忽略不造成问题5）防联盟均衡）防联盟均衡博弈中若有三个及三个以上的局中人，就有可能部分人结成“联盟”，在极大化联盟成员利益的同时损害了其他局中人的利益。（U，L，A）、（）、（D，R，B）纯策略纳什均衡纯策略纳什均衡（U，L，A）Pareto优于（优于（D，R，B）丙丙L RL RU U 0 0，0 0，1010 -5 -5，-5-5，0 0D -5D -5，-5-5，0 0 1 1，1 1，-5-5乙乙甲甲L RL RU U -2-2，-2-2，0 -50 -5，-5-5，0 0D -5D -5，-5-5，0 0 -1-1，-1-1，5 5乙乙甲甲ABL RL RU 0U 0，0 -50 -5，-5-5D -5D -5，-5 1-5 1，1 1乙乙甲甲（U，L）、（）、（D，R）纳什均衡纳什均衡（D，R）Pareto 最优均衡最优均衡（D D，R R，B B）有效地防止了甲乙二人可能的联盟，避免了有效地防止了甲乙二人可能的联盟，避免了丙的损失。在防联盟均衡这一层意义上，（丙的损失。在防联盟均衡这一层意义上，（D D，R R，B B）优优于（于（U U，L L，A A）。）。甲与乙组成一个联盟与丙博弈，联盟的一方互相协调，尽可能地甲与乙组成一个联盟与丙博弈，联盟的一方互相协调，尽可能地极大化联盟各个成员的赢利。极大化联盟各个成员的赢利。这时甲乙两人条件博弈的最优均衡仍是（这时甲乙两人条件博弈的最优均衡仍是（D，R）设（设（U，L，A）是博弈的预测解，让丙固定于是博弈的预测解，让丙固定于A，则甲、则甲、乙两人之间的条件赢得矩阵为乙两人之间的条件赢得矩阵为A BA BL 0L 0，10 -210 -2，0 0R -5R -5，0 -50 -5，0 0丙丙乙乙从甲的角度看，不管乙与丙是否结盟，条件博弈的均衡仍为（L，A），不违背原博弈的均衡（U，L，A）。对博弈的预测需要从整体出发，防联盟均衡应全面考虑。固定任何一个局中人的策略选择，其他局中人将协调在条件博弈的最优均衡上。如果协调的结果偏离了原纳什均衡，则该纳什均衡不能成为合理预测。多人博弈中，如果存在多重纯策略均衡，任何k人联盟都不会发生背离现象的均衡是一个合理预测，符合这种推理的预测结局称为防联盟均衡。

展开阅读全文