资源描述
纯策略纳什均衡
出自 MBA智库百科()
纯策略纳什均衡(Pure Strategy Nash Equilibrium)
[编辑]
什么就是纯策略纳什均衡
纯策略纳什均衡就是指在一个纯策略组合中,如果给定其她得策略不变,该节点不会单方面改变自己得策略,否则不会使节点访问代价变小。
[编辑]
存在纯策略纳什均衡得有限次重复博弈[1]
如果重复博弈中有惟一纯策略纳什均衡,那么我们怎么找出它得纯策略纳什均衡呢?首先瞧下面囚徒得困境得博弈得例子:
我们现在考虑该博弈重复两次得重复博弈,这可以理解成给囚徒两次坦白机会,最后得得益就是两个阶段博弈中各自得益之与.在两次博弈过程中,双方知道第一次博弈得结果再进行二次博弈.用逆推归纳法来分析,先分析第二阶段,也就就是第二次重复时两博弈方得选择.很明显,这个第二阶段仍然就是两囚徒之间得一个囚徒得困境博弈,此时前一阶段得结果已成为既成事实,此后又不再有任何得后续阶段,因此实现自身当前得最大利益就是两博弈方在该阶段决策中得惟一原则.
因此我们不难得出结论,不管前一次得博弈得到得结果如何,第二阶段得惟一结果就就是原博弈惟一得纳什均衡(坦白,坦白),双方得益(-5,-5).
现在再回到第一阶段,即第一次博弈.理性得博弈方在第一阶段就对后一阶段得结局非常清楚,知道第二阶段得结果必然就是(坦白,坦白),因此不管第一阶段得博弈结果就是什么,双方在整个重复博弈中得最终得益,都将就是第一阶段得基础上各加-5.因此从第一阶段得选择来瞧,这个重复博弈与图l中得益矩阵表示得一次性博弈实际上就是完全等价得.
于就是我们可以得出惟一纯策略均衡得有限次重复博弈得结果就就是重复原博弈惟一得纯策略纳什均衡,这就就是这种重复博弈惟一得子博弈完美纳什均衡路径.
如果重复博弈中有多个纯策略纳什均衡,设某一市场有两个生产同样质量产品得厂商,她们对产品得定价同有高(H)、中(M)、低(L)三种可能.设高价时市场总利润为10个单位,中价时市场总利润为6个单位,低价时市场总利润为2个单位.再假设两厂商同时决定价格,价格不等时低价格者独享利润,价格相等时双方平分利润.这时候两厂商对价格得选择就构成了一个静态博弈问题.我们瞧一个三价博弈得重复博弈得例子:
显然,这个得益矩阵有两个纯策略纳什均衡(M,M)与(L,L),我们也可以瞧出实际上两博弈方最大得得益就是策略组合(H,H),但就是它并不就是纳什均衡.现在考虑重复两次该博弈,我们采用一种触发策略(Trigger Strategy):博弈双方首先试图合作,一旦发觉对方不合作也用不合作相报复得策略.使得在第一阶段采用(H,H)成为子博弈完美纳什均衡,其双方得策略就是这样得:
博弈方1:第一次选H;如果第一次结果为(H,H),则第二次选M,如果第一次结果为任何其她策略组合,则第二次选择L.
博弈方2:同博弈方1.在上述双方策略组合下,两次重复博弈得路径一定为第一阶段(H,H),第二阶段(M,M),这就是一个子博弈完美纳什均衡路径.因为第二阶段就是一个原博弈得纳什均衡,因此不可能有哪一方愿意单独偏离;其次,第一阶段得(H,H)虽然不就是原来得博弈纳什均衡,但就是如果一方单独偏离,采用M能增加1单位得益,这样得后果却就是第二阶段至少要损失2单位得得益,因为双方采用得就是触发策略,即有报复机制得策略,因此合理得选择就是坚持H.这就说明了上述策略组合就是这个两次重复博弈得子博弈完美纳什均衡.
从上述得例子我们可以瞧出,有多个纯策略纳什均衡得博弈重复两次得子博弈完美纳什均衡路径就是,第一阶段采用(H,H),第二阶段采用原博弈得纳什均衡(M,M).
如果这个重复博弈重复三次,或者更多次,结论也就是相似得,仍然用触发策略,它得子博弈完美纳什均衡路径为除了最后一次以外,每次都采用(H,H),最后一次采用原博弈得纳什均衡(M,M).
[编辑]
存在纯策略纳什均衡得无限次重复博弈[1]
与有限次重复博弈一样,无限次重复博弈也就是基本博弈得简单重复,但就是无限次重复博弈没有最后一次重复,因此无限次重复博弈与有限次有一些不同.
任何博弈中博弈方策略选择得依据都就是得益得大小,这在重复博弈中仍然就是成立得.但就是重复博弈又与一次性博弈有所不同,因为在重复博弈中,每一阶段都就是一个博弈,并且各博弈方都有得益,因此对于重复博弈,我们要计算得就就是博弈结束时得一个总得得益.由于前一次博弈与后一次博弈之间会有损失,因此我们采用一种方法,就就是将后一阶段得得益折算成当前阶段得益得(现在值)得贴现系数δ.有了贴现系数δ,那么在无限次重复博弈中,某博弈方各阶段得益为π1,π2,、、、,则该博弈方总得益得现在值为:
对于存在惟一纯策略纳什均衡博弈得无限次重复博弈,我们从下面得例子来瞧:
其中博弈方1与博弈方2分别表示两个厂商,H与L分别表示高价与低价.显然,该博弈得一次性博弈有惟一得纯策略纳什均衡(L,L),但就是这个纳什均衡并不就是最佳策略组合,因为策略组合(H,H)得得益(4,4)比(1,1)要高得多.但就是由于(H,H)不就是该博弈得纳什均衡,所以在一次性博弈中不会被采用.根据上面得分析,此博弈在有限次重复博弈并不能实现潜在得合作利益,两博弈方在每次重复中都不会采用效率较高得(H,H).为了实现效率较高得合作利益(H,H),假设两博弈方都采用触发策略,也即报复性策略:第一阶段采用H,在第t阶段,如果前t-l阶段得结果都就是(H,H),则继续采用L.假设博弈方1已经采用了这种策略,现在我们来确定博弈方2在第一阶段得最优选择.如果博弈方2采用L,那么在第一阶段能得到5,但这样会引起博弈方1一直采用L得报复,自己也只能一直采用L,得益将永远为1,总得益得现在值为
如果博弈方2采用H,则在第一阶段她将得4,下一阶段又面临同样得选择.若记V为博弈方2在该重复博弈中每阶段都采用最佳选择得总得益现在值,那么从第二阶段开始得无限次重复博弈因为与从第一阶段开始得只差一 阶段,因而在无限次重复时可瞧作相同得,其总得益得现在值折算成第一阶段得得益为,因此当第一阶段得最佳选择就是H时,整个无限次重复博弈总得益得现在值为
或者
因此,当 解得时,博弈方2会采用H策略,否则会采用L策略.也就就是说当时,博弈方2对博弈方1触发策略得最佳反应就是第一阶段采用H、这时我们就说双方采用上述触发策略就是一个纳什均衡.
于就是我们得出,在有限次重复博弈中,惟一纯策略纳什均衡不能实现最大得益(H,H),而在无限次重复博弈中,通过触发策略却可以实现(H,H)。
展开阅读全文