第6不完全信息与声誉.pptx

资源描述

有限次博弈有限次博弈前面证明了只要未来足够重要，合作行为可以是无限次重复博弈的精炼纳什均衡。但是，现实中许多博弈是有限次的，不是无限次的。如果博弈重复的次数是有限的，无论重复多少次，合作都不会出现。“连锁店悖论”(chain-store paradox)Selten(1978);进入者进入者在位者在位者进入不进入默许斗争（40，50）（-10，0）（0，100）连锁店悖论是指连锁店悖论是指完全信息条件下的有限次重复博弈无法完全信息条件下的有限次重复博弈无法实现参与人之间的合作行为。实现参与人之间的合作行为。逆向归纳假定在位者有20个市场。直观告诉我们，如果进入者在第一个市场进入，在位者应该选择斗争，因为尽管从一个市场看，斗争是不值得的，但这样做可以遏止进入者在其他市场上的进入。唯一的精炼纳什均衡唯一的精炼纳什均衡是：进入者总是进入；在位者总是默许。Axelrod 实验密西根大学政治学教授Axelrod（1981）实验表明：即使在有限次博弈中，合作行为也频繁出现。介绍了一个计算机程序邀请赛，参加比赛的程序有介绍了一个计算机程序邀请赛，参加比赛的程序有15个，它们在比赛中个，它们在比赛中随机遭遇对手进行随机遭遇对手进行“生意生意”，也即要不断的面临囚徒困境，最后要选出，也即要不断的面临囚徒困境，最后要选出得分最高的程序。这得分最高的程序。这15个程序的策略是个程序的策略是5花花8门，有基于博弈论的，有基门，有基于博弈论的，有基于统计的，甚至有完全随机的。有的程序设计的非常详细，非常全面。于统计的，甚至有完全随机的。有的程序设计的非常详细，非常全面。但最后胜出的是一个非常简单的程序，它采用的策略是：但最后胜出的是一个非常简单的程序，它采用的策略是：1遇到一个陌遇到一个陌生程序，采取合作的态度；生程序，采取合作的态度；2遇到一个老面孔程序，则采用该程序上次遇到一个老面孔程序，则采用该程序上次的态度，即你上回欺骗了我，我这次要欺骗你，你上回合作的话，我这的态度，即你上回欺骗了我，我这次要欺骗你，你上回合作的话，我这次也合作。后来，又进行了一次次也合作。后来，又进行了一次62个参与者的比赛，还是这个程序取得个参与者的比赛，还是这个程序取得了胜利。了胜利。这个程序的策略称为这个程序的策略称为“针锋相对针锋相对”策略，可以看出它的特点：策略，可以看出它的特点：1善良，善良，第第1轮它采用合作态度；轮它采用合作态度；2他具有报复性，人要犯我，我必犯人，他具有报复性，人要犯我，我必犯人，3。它。它能原谅，只要对方该了，我还是善待它。能原谅，只要对方该了，我还是善待它。问题在哪里？问题在哪里？一个可能的原因在于：一个可能的原因在于：我们前面假定不仅参与人的理性是共同知识，而且每个参与人可以选择的战略和效用函数都是共同知识。但现实不是这样。可能性：可能性：逆向归纳方法的局限性（理性共识）；信息不完全；如果信息是完全的，谈判一开始就达成协议，但现实中的谈判不是这样，原因在于信息不对称。不完全信息博弈不完全信息博弈不满足完全信息假设的博弈称为不完全信不完全信息博弈息博弈，其中至少有一个博弈方不知道其他博弈方的支付函数。KMRW模型模型（1982）；又称“四人帮”模型，是由戴维M克雷普斯（David M.Kreps）、保罗米格罗姆(Paul Milgrom)、约翰罗伯茨（John Roberts)和罗伯特威尔逊（Robert Wilson）所建立的，对有限重复博弈中信誉效应(既合作现象)做出了很好的解释。KMRW模型模型模型证明，参与人对其他参与人支付函数或战略空间的不完全信息对均衡结果有重要影响，合作行为在有限次重复博弈中会出现，只要博弈重复次数足够长。如果参与人对其他参与人的效用函数和战略空间的信息不完全，即使博弈重复的次数是有限的，人们也有积极性建立一个合作的声誉声誉(reputation)，合作会出现。KMRW 模型的特点（1）KMRW分析主要适应于多阶段重复博弈。并且信息是不对称的，参与人是非完全理性的；（2）KMRW模型的出发点。只要阶段博弈重复次数足够多。参与人有足够的耐心。即使贴现率非常小，这种小小的不确定性也对参与人有着较大的影响；（3）Kreps等人对序贯均衡证明了在T阶段重复博弈中，如果存在P0的概率。参与人是非理性的(即只采取针锋相对策略或冷酷策略)，如果T够大任何一个参与人选择背叛的阶段数是存在着一个上限的。这个上限依赖于P及阶段博弈的盈利而与T无关，即参与人在相当多的阶段存在着合作；（4）如果对阶段博弈的盈利强加上若干条件，参与人对针锋相对策略的最优反应将是合作下去直到博弈的最后一个阶段。单方不完全信息单方不完全信息假定有两个参与人，A和B，进行囚徒困境博弈。如下图。参与人参与人A有两中可能的类型：“非理性非理性”型：型：只有一种战略，tit-for-tat(针锋相对针锋相对：TFT)，或者grim strategy,概率为p;“理性”型：可以选择任何战略，概率为（1-p）；参与人参与人B有一种类型：理性型。对对“非理性非理性”的解释的解释非理性主要是指一切有别于理性思维的非理性主要是指一切有别于理性思维的精神因素，如情感、直觉、幻觉、下意精神因素，如情感、直觉、幻觉、下意识、灵感；识、灵感；特殊的成本函数或效用函数；特殊的成本函数或效用函数；讲义气、重情谊的人；内在化了；reciprocity（互惠）社会规范的人；认知问题；一般人常见的十二种非理性观念一般人常见的十二种非理性观念 1.需要被赞赏：一个人不管做什么，都绝对必须得到每个人的喜爱和赞许。需要被赞赏：一个人不管做什么，都绝对必须得到每个人的喜爱和赞许。2.过高的自我期许：人在各方面都必须能力十足，完美无缺。过高的自我期许：人在各方面都必须能力十足，完美无缺。3.责备：有些人很坏、邪恶、卑鄙，应该受到责备惩罚。责备：有些人很坏、邪恶、卑鄙，应该受到责备惩罚。4.面临灾难：当事情不能尽如己愿时，一定是可怕的灾祸。面临灾难：当事情不能尽如己愿时，一定是可怕的灾祸。5.不必负责：不愉快是由外在环境所造成，个人一定无法加以控制。不必负责：不愉快是由外在环境所造成，个人一定无法加以控制。6.忧虑：对于可能发生的危险或可怕的事物，必须要常记挂在心里。忧虑：对于可能发生的危险或可怕的事物，必须要常记挂在心里。7.逃避问题：逃避某种困难或责任，总一定比面对问题还来的容易。逃避问题：逃避某种困难或责任，总一定比面对问题还来的容易。8.无助感：过去的经验与事件，是现在行为的决定者，过去的影响一定是无无助感：过去的经验与事件，是现在行为的决定者，过去的影响一定是无法磨蚀。法磨蚀。9.完美主义：每个问题一定有一个正确或完美的解决方法，而且必须找到，完美主义：每个问题一定有一个正确或完美的解决方法，而且必须找到，否则将会有大灾难。否则将会有大灾难。10.依赖：一个人必须依赖他人，并应找一个比自己更强的人去依靠。依赖：一个人必须依赖他人，并应找一个比自己更强的人去依靠。11.过分关切：一个人应该为别人的难题或困扰而烦恼。过分关切：一个人应该为别人的难题或困扰而烦恼。12.惰性：个人的自我陶醉或不必积极参与活动，也必能带来极大的喜悦。惰性：个人的自我陶醉或不必积极参与活动，也必能带来极大的喜悦。囚徒困境博弈囚徒困境博弈合作背叛合作背叛3，3-1，44，-10，0AB博弈重复两次博弈重复两次t=1t=2A非理性(p)理性型(1-p)B（理性型)合作X背叛背叛X背叛第第2阶段阶段参与人A：如果是理性的，选择“背叛”；如果是非理性的，选择B在第1阶段的行动（X）；参与人B：选择“背叛”。第第1阶段阶段参与人A：如果是非理性的，选择“合作”；如果是理性的，选择“背叛”；参与人B：如果选择合作，面临被背叛的风险，但如果A是非理性的，可以换来第2阶段的合作。B在第在第2阶段的选择阶段的选择B在第一阶段选择合作，则B期望效用是：3p+(-1)(1-p)+4p+0(1-p)=8p-1若B第一阶段选择背叛,B期望效用函数是：4p+0(1-p)+0=4p要使B的最优选择是合作，应有8p-1=4p 可计算得出：p=0.25;结论：如果B认为A非理性的概率不小于0.25,B在第1阶段会选择合作，即使博弈只重复两次。博弈重复博弈重复3次次t=1t=2A非理性(p)理性型(1-p)B（理性型)合作X？背叛XXt=3X背叛背叛参与人参与人A（理性）的选择（理性）的选择如果A是理性的，在第第2阶段和第阶段和第3阶段一定会选阶段一定会选择背叛择背叛，但第1阶段也可能选择合作可能选择合作，因为建立一个合作的形象合作的形象可以换取B在第2阶段的合作；如果p=0.25,并且A认为B在第1阶段会合作，给定A在第2阶段合作的话B在第2阶段也会合作，那么A选择合作得到：3+4+0=5；如果A选择背叛，得到：4+0+0=4；所以合作是最优的。参与人参与人B的选择的选择B有四种战略：（合作，合作，背叛）；（合作，背叛，背叛）；（背叛，背叛，背叛）；（背叛，合作，背叛）（合作，合作，背叛）（合作，合作，背叛）t=1t=2A非理性(p)理性型(1-p)B（理性型)合作X=合作合作背叛X=合作X=合作t=3X=合作背叛背叛3+3p+(-1)(1-p)+4p+0=8p+2B的预期效用=（合作，背叛，背叛）（合作，背叛，背叛）t=1t=2A非理性(p)理性型(1-p)B（理性型)合作X=合作合作背叛X=合作X=背叛t=3X=背叛背叛背叛3+4p+0(1-p)+0=4p+3B的预期效用=（背叛，背叛，背叛）（背叛，背叛，背叛）t=1t=2A非理性(p)理性型(1-p)B（理性型)合作X=背叛合作背叛X=背叛X=背叛t=3X=背叛背叛背叛4+0 +0=4B的预期效用=（背叛，合作，背叛）t=1t=2A非理性(p)理性型(1-p)B（理性型)合作X=背叛合作背叛X=背叛X=合作t=3X=合作背叛背叛4+（-1）+4p+0(1-p)=4p+3B的预期效用=P=18p+2 (合作，合作，背叛）0.254p+3(合作，合作，背叛）（背叛，合作，背叛）=4（背叛，背叛，背叛）结论结论只要只要p=0.25,下表所列战略组合是一个下表所列战略组合是一个精炼纳什均衡：精炼纳什均衡：理性型A在第1阶段选择合作，然后在第2和第3阶段选择背叛；B在第1和第2阶段选择合作，然后在第3阶段背叛。精炼纳什均衡t=1t=2A非理性(p)理性型(1-p)B（理性型)合作X=合作合作背叛X=合作X=合作t=3X=合作背叛背叛一般结论可以证明：如果博弈重复T次，只要p=0.25,对于所有的T=3,下列战略组合构成一个精炼纳什均衡：理性型A在t=1.T-2阶段选择合作，在T-1和T阶段选择背叛；B在t=1.T-1阶段选择合作，在最后阶段T选择背叛。背叛只在最后两阶段出现。双方不完全信息双方不完全信息在单方不完全信息下，只要p=4;T*=(5-p)/p;所以，无论p多小，只要博弈重复的次数足够大，一开始就选择背叛不是最优的。KMRW定理在不完全信息的情况下，只要博弈重复的次数足够长，参与人就有积极性在博弈的早期建立一个“合作”的声誉；只是在博弈的后期，才会选择背叛；并且，非合作阶段的数量只与p有关，而与博弈的次数T无关。看似不理性的行为其实是理性的；“大智若愚”大智若愚，我国古代成语，出自宋苏轼经进东坡文集事略二七贺欧阳少帅致仕启：“大勇若怯，大智若愚。”指才智出众但并不处处表现在外。生活态度生活态度大智若愚在生活当中的表现是不处处显示自己的聪明，大智若愚在生活当中的表现是不处处显示自己的聪明，做人低调，从来不向人夸耀自己抬高自己，做人原则做人低调，从来不向人夸耀自己抬高自己，做人原则是厚积薄发宁静致远，注重自身修为、层次和素质的是厚积薄发宁静致远，注重自身修为、层次和素质的提高，对于很多事情持大度开放的态度，有着海纳百提高，对于很多事情持大度开放的态度，有着海纳百川的境界和强者求己的心态，从来没有太多的抱怨，川的境界和强者求己的心态，从来没有太多的抱怨，能够真心实在的踏实做事，对于很多事情要求不高，能够真心实在的踏实做事，对于很多事情要求不高，只求自己能够不断得到积累。很多时候大智若愚伴随只求自己能够不断得到积累。很多时候大智若愚伴随的还有大器晚成，毕竟大智若愚要求的是不断积累自的还有大器晚成，毕竟大智若愚要求的是不断积累自己，就像玉坯不断积累一样，多年的积累所铸就的往己，就像玉坯不断积累一样，多年的积累所铸就的往往是绝代珍品，出世的时候由于体积太大而需要精雕往是绝代珍品，出世的时候由于体积太大而需要精雕细琢，而不像外智那般的小玉一样几下子就可以雕琢细琢，而不像外智那般的小玉一样几下子就可以雕琢出来马上能够拿到市场卖个好价钱，因而大器晚成之出来马上能够拿到市场卖个好价钱，因而大器晚成之后往往都是无价之宝。后往往都是无价之宝。解开“连锁店悖论”Selten(1978);进入者进入者在位者在位者进入不进入默许斗争（40，50）（-10，0）（0，100）声誉的积累举例为什么越有名气的人越在乎自己的声誉？（终身教授的激励问题）；画家烦恼；政府的声誉；（中国与英国有关香港问题的争论）；

展开阅读全文