1、第一节 博弈论概述l博弈论博弈论(the Game Theory)(the Game Theory)也就是运筹学中的对策论也就是运筹学中的对策论,“是关于策略相互作用的理论是关于策略相互作用的理论”,研究两个或两个以,研究两个或两个以上参加者在对抗性或竞争性局势下如何采取行动,如上参加者在对抗性或竞争性局势下如何采取行动,如何作出有利于己方的决策及其均衡问题。何作出有利于己方的决策及其均衡问题。l对策思想最早产生于我国古代。对策思想最早产生于我国古代。l对策思想明确地应用于经济领域,始于对策思想明确地应用于经济领域,始于Cournot Cournot(1838),Bertrand(1883),
2、Edgeworth(1925)(1838),Bertrand(1883),Edgeworth(1925)等人关等人关于寡头竞争、产量与价格垄断、产品交易行为的研究。于寡头竞争、产量与价格垄断、产品交易行为的研究。John F.Nash JrThe Nobel Memorial Prize in Economic Sciences 2007-Leonid Hurwicz,Eric S.Maskin,Roger B.Myerson 2005-Robert J.Aumann,Thomas C.Schelling 2001-George A.Akerlof,A.Michael Spence,Josep
3、h E.Stiglitz 1996-James A.Mirrlees,William Vickrey 1994-John C.Harsanyi,John F.Nash Jr.,Reinhard Selten 博弈论提供了一种研究人类理性行为的通博弈论提供了一种研究人类理性行为的通用方法,运用这些方法可以更为清晰完整地分用方法,运用这些方法可以更为清晰完整地分析各种社会力量冲突和合作的形势,具体分析析各种社会力量冲突和合作的形势,具体分析人与人之间在利益相互制约下理性主体的策略人与人之间在利益相互制约下理性主体的策略选择行为及相应结局。选择行为及相应结局。博弈论强调在既定约束博弈论强调在既定约束
4、条件下追求效用最大化(服从微观经济学的一条件下追求效用最大化(服从微观经济学的一般分析方法)。同时,信息和时序问题成为博般分析方法)。同时,信息和时序问题成为博弈论的两个重要的分析工具。弈论的两个重要的分析工具。一、博弈论的基本概念一、博弈论的基本概念 博弈论研究人与人之间相互博弈论研究人与人之间相互“斗智斗智”的形式和结果。的形式和结果。当经济主体间的利益存在冲突时,一方所获得的利益不仅当经济主体间的利益存在冲突时,一方所获得的利益不仅取决于自己所采取的行动,而且也取决于其他主体采取的取决于自己所采取的行动,而且也取决于其他主体采取的行动或对自己行动的反应。博弈论就是描述在这种形势下行动或对
5、自己行动的反应。博弈论就是描述在这种形势下各方理性地选择自己的行动所实现的结果,分析各决策主各方理性地选择自己的行动所实现的结果,分析各决策主体的行为发生相互作用时的决策以及这种决策的均衡问题。体的行为发生相互作用时的决策以及这种决策的均衡问题。博弈论的基本概念包括:局中人、策略、支付。博弈论的基本概念包括:局中人、策略、支付。局中人(局中人(PlayerPlayer):局中人是指在博弈中选择行动以):局中人是指在博弈中选择行动以最大化自身效用的决策主体。可能是个人或团体(如国家、最大化自身效用的决策主体。可能是个人或团体(如国家、企业等)。企业等)。策略或策略空间(策略或策略空间(Strat
6、egyStrategy):策略是局中人选择):策略是局中人选择行动的规则,它规定局中人如何对其他人的行动作出反行动的规则,它规定局中人如何对其他人的行动作出反应,即在每种可能的情况下应该如何行动。它与行动不应,即在每种可能的情况下应该如何行动。它与行动不同,行动是局中人的决策变量。如同,行动是局中人的决策变量。如“人不犯我,我不犯人不犯我,我不犯人;人若犯我,我必犯人人;人若犯我,我必犯人”是一种策略,而是一种策略,而“犯犯”与与“不犯不犯”是两种不同的行动,策略规定了什么时候选择是两种不同的行动,策略规定了什么时候选择“犯犯”什么时候选择什么时候选择“不犯不犯”。局中人可选择的策略的全。局中
7、人可选择的策略的全体构成了策略空间(或策略集)。体构成了策略空间(或策略集)。支付(支付(PayoffPayoff)(支付函数与支付矩阵):博弈)(支付函数与支付矩阵):博弈论中,可用数值表示各局中人从博弈中所获得的收益或论中,可用数值表示各局中人从博弈中所获得的收益或效用水平,该数值称为支付。支付依赖于各个局中人所效用水平,该数值称为支付。支付依赖于各个局中人所作出的策略,这种收益与策略的依赖关系构成了支付函作出的策略,这种收益与策略的依赖关系构成了支付函数。参与博弈的多个局中人的收益可用一个矩阵或框图数。参与博弈的多个局中人的收益可用一个矩阵或框图表示,这种矩阵或框图叫做收益矩阵。表示,这
8、种矩阵或框图叫做收益矩阵。除此之外,博弈论中的基本概念还包括:除此之外,博弈论中的基本概念还包括:行动、信息、结果和均衡。它们关系是:行行动、信息、结果和均衡。它们关系是:行动是局中人的决策变量;信息是局中人在进动是局中人的决策变量;信息是局中人在进行博弈时有关其他局中人的特征和行动的知行博弈时有关其他局中人的特征和行动的知识;结果是博弈分析者感兴趣的要素的集合;识;结果是博弈分析者感兴趣的要素的集合;均衡是所有局中人的最优策略或行动的集合。均衡是所有局中人的最优策略或行动的集合。根据博弈者选择的策略,博弈论可划根据博弈者选择的策略,博弈论可划分为合作博弈与非合作博弈。纳什分为合作博弈与非合作
9、博弈。纳什(NashNash)、泽尔腾()、泽尔腾(SeltenSelten)和海萨尼)和海萨尼(HarsanyiHarsanyi)()(19941994诺贝尔经济学奖获得诺贝尔经济学奖获得者)的主要贡献在于非合作博弈方面,而者)的主要贡献在于非合作博弈方面,而且现在大多数经济学家论及博弈时,也主且现在大多数经济学家论及博弈时,也主要是指非合作博弈。要是指非合作博弈。一、博弈论的基本概念 合作博弈和非合作博弈的区别在于人们的行动为相互作合作博弈和非合作博弈的区别在于人们的行动为相互作用时,当事人能否达成一个具有约束力(用时,当事人能否达成一个具有约束力(binding binding agre
10、ementagreement)的协议。若有,就是合作博弈;否则就是非合)的协议。若有,就是合作博弈;否则就是非合作博弈。例如,两个寡头企业,如果他们之间达成一个协议,作博弈。例如,两个寡头企业,如果他们之间达成一个协议,联合最大化垄断利润,且各自按该协议生产,即是合作博弈。联合最大化垄断利润,且各自按该协议生产,即是合作博弈。其面临的问题是如何分享合作带来的剩余。但若两个企业间其面临的问题是如何分享合作带来的剩余。但若两个企业间的协议不具有约束力,即没有哪一方能强制另一方遵守该协的协议不具有约束力,即没有哪一方能强制另一方遵守该协议,每个企业都只选择自己的最优产量(或价格),则是非议,每个企业
11、都只选择自己的最优产量(或价格),则是非合作博弈。另外,合作博弈强调的是团体理性、效率、公正合作博弈。另外,合作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是个人理性、个人最优决策,其和公平。非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是无效率的。结果可能是有效率的,也可能是无效率的。从局中人行动的先后顺序可划分为静态博弈从局中人行动的先后顺序可划分为静态博弈(Static gameStatic game)和动态博弈()和动态博弈(dynamic gamedynamic game)。静态博弈)。静态博弈是指在博弈中,局中人同时选择行动或虽非同时行动但后是指
12、在博弈中,局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什么具体行动。动态博弈行动者并不知道先行动者采取了什么具体行动。动态博弈是指局中人的行动有先后顺序,且后行动者能够观察到先是指局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。行动者所选择的行动。从局中人是否具有有关其他参与人(对手)的特征、从局中人是否具有有关其他参与人(对手)的特征、策略空间及支付函数方面的知识的角度,可划分为完全信策略空间及支付函数方面的知识的角度,可划分为完全信息博弈息博弈(game of complete information)(game of complete informa
13、tion)和不完全信息博和不完全信息博弈弈(game of incomplete information)(game of incomplete information)。三、最大最小(或最小最大原理)三、最大最小(或最小最大原理)设设2 2人博弈的局中人为甲和乙,甲的策略为人博弈的局中人为甲和乙,甲的策略为,乙的策略为,乙的策略为 ;二者的支付函数为:;二者的支付函数为:和和 ,相应支,相应支付矩阵为:付矩阵为:该博弈的支付矩阵如下表:第一行和第一列表示局中人该博弈的支付矩阵如下表:第一行和第一列表示局中人的不同策略,其他的有序对表示局中人的支付,其中的第一的不同策略,其他的有序对表示局中人
14、的支付,其中的第一项和第二项表示甲和乙在其对应策略下可获得的支付或收益,项和第二项表示甲和乙在其对应策略下可获得的支付或收益,如如f11f11和和g11 g11,局中人的目标是选择使自己的收益最大化的策,局中人的目标是选择使自己的收益最大化的策略。略。两人博弈的支付矩阵两人博弈的支付矩阵 决策问题:决策问题:假定支付为共同知识,如果甲知道乙采用策略假定支付为共同知识,如果甲知道乙采用策略yjyj,甲必然采,甲必然采取相应策略使自己的收益最大,即:取相应策略使自己的收益最大,即:在甲不知道乙会采取何种策略时,如果甲是一个风险规避者,在甲不知道乙会采取何种策略时,如果甲是一个风险规避者,他将从收益
15、矩阵中找出自己的每一种策略下所能获得的最小他将从收益矩阵中找出自己的每一种策略下所能获得的最小支付,即先求解支付,即先求解 ,然后再这些最小收益策略中选择收益最大的策略。即然后再这些最小收益策略中选择收益最大的策略。即 该方法的合理性是无论对方采取何种策略,甲至少可获得这该方法的合理性是无论对方采取何种策略,甲至少可获得这个最小值中的最大值,个最小值中的最大值,最小最大原理。局中人按该原则最小最大原理。局中人按该原则所确定的策略叫做稳妥策略。所确定的策略叫做稳妥策略。类似地,对乙也有:类似地,对乙也有:用同样的方法可导出最大最小原理。即局中人用同样的方法可导出最大最小原理。即局中人先从支付矩阵
16、中找出其每一种策略下的最大损先从支付矩阵中找出其每一种策略下的最大损失,然后从这些最大损失策略中选择损失最小失,然后从这些最大损失策略中选择损失最小的策略。的策略。例:例:两寡头企业甲和乙展开竞争,两者可采用三种经营策略两寡头企业甲和乙展开竞争,两者可采用三种经营策略(1 1,2 2,3 3),且甲在竞争中得到的收益恰好等于乙在竞争中),且甲在竞争中得到的收益恰好等于乙在竞争中失去的收益。甲的报偿矩阵如下表:失去的收益。甲的报偿矩阵如下表:甲的策略乙的策略123178926233540 1.1.乙先行动。若乙选乙先行动。若乙选1 1,则甲选,则甲选3 3;乙选;乙选2 2,则甲选,则甲选1 1
17、;乙选;乙选3 3,则甲选则甲选1 1。乙在行动时会估计到甲的行动,它估计三种选择中。乙在行动时会估计到甲的行动,它估计三种选择中的最高代价为策略的最高代价为策略1 1(损失(损失900900万),其次为策略万),其次为策略2 2(损失(损失600600万),最低为策略万),最低为策略3 3(损失为(损失为500500万)。因此,乙必选代价最万)。因此,乙必选代价最低的策略低的策略3 3。最大最小原理。结论:乙选择最大最小原理。结论:乙选择3 3,甲选,甲选1 1作为作为回应,乙损失回应,乙损失500500万,甲获益万,甲获益500500万。万。甲的策略乙的策略1231-7-8-92-6-2-
18、33-5-40 2.2.甲先行动。若甲选甲先行动。若甲选1 1,则乙选,则乙选3 3;甲选甲选2 2,则乙选,则乙选2 2;甲选;甲选3 3,则乙选,则乙选3 3。甲必在收益最小值中选最大值。甲必在收益最小值中选最大值。最小最大原理。结论:甲选最小最大原理。结论:甲选1 1,乙以乙以3 3进行回应。甲得进行回应。甲得500500万,乙损万,乙损失失500500万。万。“完全信息完全信息”指的是每个局中人对所有其他参与人的特征指的是每个局中人对所有其他参与人的特征(策略空间、支付函数等)有完全的了解,(策略空间、支付函数等)有完全的了解,“静态静态”指的是指的是所有局中人同时选择行动且只选择一次
19、。纳什均衡是完全信所有局中人同时选择行动且只选择一次。纳什均衡是完全信息静态博弈解的一般概念,也是所有其他类型博弈解的基本息静态博弈解的一般概念,也是所有其他类型博弈解的基本要求。本节先讨论纳什均衡的特殊情况,然后讨论纳什均衡要求。本节先讨论纳什均衡的特殊情况,然后讨论纳什均衡的一般概念。的一般概念。在博弈论里,一个博弈可以有两种表述方式:一种是策在博弈论里,一个博弈可以有两种表述方式:一种是策略式(略式(strategic form representationstrategic form representation)表述,另一种是扩)表述,另一种是扩展式(展式(extensive for
20、m representation extensive form representation)表述。前者适合)表述。前者适合于讨论静态博弈,后者适合于讨论动态博弈。在策略式表述于讨论静态博弈,后者适合于讨论动态博弈。在策略式表述中,所有参与人同时选择各自的策略,所有参与人选择的策中,所有参与人同时选择各自的策略,所有参与人选择的策略一起决定每个参与人的支付。略一起决定每个参与人的支付。第二节第二节 完全信息静态博弈完全信息静态博弈 策略式表述给出:通常情况下,每个局中人的支付是博弈中所有参与人通常情况下,每个局中人的支付是博弈中所有参与人策略的函数,故每个局中人的最优策略选择依赖于所有策略的函
21、数,故每个局中人的最优策略选择依赖于所有其他参与人的策略选择。但在一些特殊博弈中,一个参其他参与人的策略选择。但在一些特殊博弈中,一个参与人的最优策略选择可能并不依赖于其他参与人的策略与人的最优策略选择可能并不依赖于其他参与人的策略选择,即无论其他参与人选择什么策略,他的最优策略选择,即无论其他参与人选择什么策略,他的最优策略是唯一的,这种最优策略被称为是唯一的,这种最优策略被称为“占优策略占优策略”(dominant strategydominant strategy)。)。例:例:“囚徒困境囚徒困境”囚徒困境是博弈论中的经典案例。该故事讲的是,两囚徒困境是博弈论中的经典案例。该故事讲的是,
22、两个嫌疑犯作案后被警察抓住,分别被关在不同的房间里个嫌疑犯作案后被警察抓住,分别被关在不同的房间里进行审讯。警察知道两人有罪,但缺乏有力的证据,除进行审讯。警察知道两人有罪,但缺乏有力的证据,除非两人之中有一个坦白。警察告诉每个人,他们的可选非两人之中有一个坦白。警察告诉每个人,他们的可选择的策略与支付如下表:择的策略与支付如下表:一、占优策略均衡均衡l在该博弈中,每个囚徒有两种可能选择的策略:坦白和抵赖。在该博弈中,每个囚徒有两种可能选择的策略:坦白和抵赖。显然,无论同伙选择什么策略,每个囚徒的最优策略都是显然,无论同伙选择什么策略,每个囚徒的最优策略都是“坦白坦白”。如,。如,B B选择坦
23、白,若选择坦白,若A A选择坦白时支付为选择坦白时支付为-8-8,选择抵,选择抵赖时支付为赖时支付为-10-10,因而坦白比抵赖好;若,因而坦白比抵赖好;若B B选择抵赖,选择抵赖,A A坦白时坦白时的支付为的支付为0 0,抵赖时为,抵赖时为-1-1,因而坦白比抵赖好。即是说,因而坦白比抵赖好。即是说,“坦坦白白”是是A A的占优策略。同样,的占优策略。同样,“坦白坦白”也是也是B B的占优策略。的占优策略。B A坦白抵赖坦白-8,-80,-10抵赖-10,0-1,-1 一般地,称 对应地,所有的 被称为“劣策略”。注意:这里 在一个博弈里,若所有参与人都有占优策略存在,则占优策略均衡是可以预
24、测到的唯一均衡,因为没有一个理性的参与人会选择劣策略。在囚徒困境的博弈里,(坦白,坦白)是占优策略均衡。二、重复剔除的占优策略均衡 在绝大多数博弈中,并不存在占优策略均衡。但在绝大多数博弈中,并不存在占优策略均衡。但在有些博弈中,仍可应用占优的逻辑找出均衡。在有些博弈中,仍可应用占优的逻辑找出均衡。案例:案例:“猪智博弈猪智博弈”猪圈里有两头猪(大猪和小猪),猪圈一头有一猪圈里有两头猪(大猪和小猪),猪圈一头有一猪食槽猪食槽,另一头安装着一个按制猪食供应的按钮,按另一头安装着一个按制猪食供应的按钮,按一下钮,有一下钮,有8 8个单位的猪食进槽,但需个单位的猪食进槽,但需2 2个单位的成个单位的
25、成本。两头猪有两种策略:按钮和等待。具体的博弈本。两头猪有两种策略:按钮和等待。具体的博弈支付和结果如下表:支付和结果如下表:小猪按按钮等待大猪按按钮3,12,4等待7,-10,0 猪智博弈 依赖于小猪的策略:若小猪选依赖于小猪的策略:若小猪选“等待等待”,大猪的最优策略是大猪的最优策略是“按按”;若小猪选;若小猪选“按按”,大猪的最优策略为,大猪的最优策略为“等待等待”。因此,。因此,不能用上述占优策略找出均衡。不能用上述占优策略找出均衡。可能的均衡是什么呢?若小猪是理性的,可能的均衡是什么呢?若小猪是理性的,他只会选他只会选“等待等待”,因为,因为“等待等待”严格优严格优于于“按按”。假定
26、大猪知道小猪是理性的,。假定大猪知道小猪是理性的,则会预测到小猪的选择;此时,大猪的最则会预测到小猪的选择;此时,大猪的最优选择只能是优选择只能是“按按”。因此,(按,等待)。因此,(按,等待)是该博弈唯一的均衡。是该博弈唯一的均衡。找出上述均衡的思路是:先找出某个参与人找出上述均衡的思路是:先找出某个参与人的劣策略(假定存在),把它剔除,重新构的劣策略(假定存在),把它剔除,重新构造一个不包含已剔除策略的新博弈;然后再造一个不包含已剔除策略的新博弈;然后再剔除新博弈中某个参与人的劣策略;剔除新博弈中某个参与人的劣策略;直直至剩下一个唯一的策略组合。该策略组合就至剩下一个唯一的策略组合。该策略
27、组合就是博弈的均衡解,称为是博弈的均衡解,称为“重复剔除的占优策重复剔除的占优策略均衡略均衡”。上例中,先剔除小猪的劣策略。上例中,先剔除小猪的劣策略“按按”,在新博弈中,小猪只有,在新博弈中,小猪只有“等待等待”一个一个策略,大猪仍有两个策略,但策略,大猪仍有两个策略,但“等待等待”是它是它的劣策略,剔除它,就剩下唯一的策略组合的劣策略,剔除它,就剩下唯一的策略组合(按,待待)。(按,待待)。例:找出下列博弈的重复剔除的占优策略均衡例:找出下列博弈的重复剔除的占优策略均衡 局中人BLMR局中人AU1,01,20,1D0,30,12,0局中人局中人B BL LM M局中人局中人A AU U1
28、1,0 01 1,2 2D D0 0,3 30 0,1 1局中人BLM局中人AU1,01,2 三、纳什均衡 纳什均衡纳什均衡 (Nash equilibriumNash equilibrium)是指这样)是指这样一种均衡,博弈中的每个局中人都确信,在其一种均衡,博弈中的每个局中人都确信,在其他局中人策略给定的情况下,他选择了最优策他局中人策略给定的情况下,他选择了最优策略。其核心思想是:博弈的理想结局是,每个略。其核心思想是:博弈的理想结局是,每个局中人选择的策略是对其他局中人所选策略的局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中人都不能因单方面最佳反应,其中每一个局中人都
29、不能因单方面改变自己的策略而获益。改变自己的策略而获益。正式定义:容易检验,囚徒困境中的(坦白,坦白)是一个纳什均容易检验,囚徒困境中的(坦白,坦白)是一个纳什均衡,而(抵赖,抵赖)不是一个纳什均衡,因为给定同伙选衡,而(抵赖,抵赖)不是一个纳什均衡,因为给定同伙选择抵赖,自己选抵赖得择抵赖,自己选抵赖得-1-1,选坦白得,选坦白得0 0,因而抵赖不是自己的,因而抵赖不是自己的最优策略,类似地,(坦白,抵赖)和(抵赖,坦白)也不最优策略,类似地,(坦白,抵赖)和(抵赖,坦白)也不是纳什均衡。同样(是纳什均衡。同样(U U,M M)也是一个纳什均衡。)也是一个纳什均衡。或表述为:是下述最大化问题
30、的解:当参与人的策略空间很大时,按上述方法检查每一个策当参与人的策略空间很大时,按上述方法检查每一个策略组合是不是纳什均衡很繁琐。在两人博弈中,有一略组合是不是纳什均衡很繁琐。在两人博弈中,有一简单的方法。首先,考虑简单的方法。首先,考虑A A的策略,对于每一个的策略,对于每一个B B的给的给定策略,找出定策略,找出A A的最优策略,在其对应的支付下划一横的最优策略,在其对应的支付下划一横线,然后,用类似的方法找出线,然后,用类似的方法找出B B的最优策略,若某个支的最优策略,若某个支付格的两个数字下都有横线,则该格对应的策略组合付格的两个数字下都有横线,则该格对应的策略组合就是一个纳什均衡。
31、就是一个纳什均衡。表参与人BLCR参与人AU0,44,05,3M4,00,45,3D3,53,56,6纳什均衡与占优策略均衡及重复剔除的占优均衡纳什均衡与占优策略均衡及重复剔除的占优均衡之间的关系之间的关系 (1 1)每一个占优策略均衡、重复剔除的占优均衡一定是纳什)每一个占优策略均衡、重复剔除的占优均衡一定是纳什均衡,但逆命题不一定成立。如在囚徒困境博弈里,(坦白,均衡,但逆命题不一定成立。如在囚徒困境博弈里,(坦白,坦白)是一个占优策略均衡、重复剔除的占优均衡,也是一坦白)是一个占优策略均衡、重复剔除的占优均衡,也是一个纳什均衡;猪智博弈中的(按,等待)是一个重复剔除的个纳什均衡;猪智博弈
32、中的(按,等待)是一个重复剔除的占优均衡,也是一个纳什均衡;但在表占优均衡,也是一个纳什均衡;但在表中的(中的(D D,R R)是一)是一个纳什均衡,但不是一个重复剔除的占优均衡(无法通过重个纳什均衡,但不是一个重复剔除的占优均衡(无法通过重复剔除劣策略的办法找到均衡解)或占优策略均衡。复剔除劣策略的办法找到均衡解)或占优策略均衡。(2 2)纳什均衡一定是在重复剔除严格劣策略过程中没有被剔)纳什均衡一定是在重复剔除严格劣策略过程中没有被剔除掉的策略组合,但没有被剔除掉的策略组合不一定是纳什除掉的策略组合,但没有被剔除掉的策略组合不一定是纳什均衡,除非它是唯一的。如(抵赖,抵赖)被剔除掉了,故均
33、衡,除非它是唯一的。如(抵赖,抵赖)被剔除掉了,故它不是一个纳什均衡,而(坦白,坦白)是一个纳什均衡,它不是一个纳什均衡,而(坦白,坦白)是一个纳什均衡,故它没有被剔除掉。在表故它没有被剔除掉。在表中,没有任何一个策略严格劣于中,没有任何一个策略严格劣于另一个策略,因而没有一个策略组合能被剔除掉,即没有被另一个策略,因而没有一个策略组合能被剔除掉,即没有被剔除掉的策略组合很多,但(剔除掉的策略组合很多,但(D D,R R)是唯一的一个纳什均衡。)是唯一的一个纳什均衡。上面将纳什均衡定义为一组满足所有参与人的效用最大化上面将纳什均衡定义为一组满足所有参与人的效用最大化的策略组合。即的策略组合。即
34、 是一个纳什均是一个纳什均衡,当且仅当对所有的衡,当且仅当对所有的 ,根据该定义,有些博弈不存在纳什均衡。根据该定义,有些博弈不存在纳什均衡。例一:社会福利博弈(支付矩阵如下表)。例一:社会福利博弈(支付矩阵如下表)。流浪汉找工作游荡政府救济3,2-1,3不救济-1,10,0 显然,该博弈没有纳什均衡。显然,该博弈没有纳什均衡。四、混合策略纳什均衡四、混合策略纳什均衡 例二:猜谜游戏(猜硬币)(支付矩阵如下表)。儿童儿童B B正面正面反面反面儿童儿童A A正面正面-1-1,1 11 1,-1-1反面反面1 1,-1-1-1-1,1 1 该博弈是一个零和博弈,没有纳什均衡。如(正面,正面)该博弈
35、是一个零和博弈,没有纳什均衡。如(正面,正面)不是纳什均衡,因为给定不是纳什均衡,因为给定B B选正面,选正面,A A的最优选择是反面。类的最优选择是反面。类似地,(反面,正面)、(反面,反面)、(正面,反面)似地,(反面,正面)、(反面,反面)、(正面,反面)都不是纳什均衡。都不是纳什均衡。这两个例子虽然不存在上面所定义的纳什均衡,但具有混合这两个例子虽然不存在上面所定义的纳什均衡,但具有混合策略纳什均衡。策略纳什均衡。纯策略和混合策略纳什均衡:如果一个策略规定参与人在每一个给定的信息情况下下如果一个策略规定参与人在每一个给定的信息情况下下只选择一种特定的行动,则称该策略为纯策略。只选择一种
36、特定的行动,则称该策略为纯策略。若一个策略规定参与人在给定信息情况下以某种概率分若一个策略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,则称该策略为混合策略。布随机地选择不同的行动,则称该策略为混合策略。在博弈的策略式表述中,混合策略可定义为在纯策略在博弈的策略式表述中,混合策略可定义为在纯策略空间上的概率分布。空间上的概率分布。定义:社会福利博弈的支付矩阵流浪汉找工作游荡政府救济3,2-1,3不救济-1,10,0以社会福利博弈为例求解混合策略纳什均衡。以社会福利博弈为例求解混合策略纳什均衡。假定政府的混合策略为假定政府的混合策略为G G=(=(,1-,1-)(即政府以(即政府
37、以的概率的概率选救济,选救济,1-1-的概率选不救济),流浪汉的混合策略为的概率选不救济),流浪汉的混合策略为L L=(r,1-r)=(r,1-r)(即流浪汉以(即流浪汉以r r的概率选找工作,以的概率选找工作,以1-r1-r的概率选的概率选游荡)。则政府的效用函数为游荡)。则政府的效用函数为:求其微分可得到政府最优化的一阶条件求其微分可得到政府最优化的一阶条件:因此因此,在混合策略均衡在混合策略均衡,流浪汉以流浪汉以0.20.2的概率选寻找工作,的概率选寻找工作,0.80.8的的概率选游荡。概率选游荡。问题是,解政府的最优化问题得到的却是流浪汉的混合策略。问题是,解政府的最优化问题得到的却是
38、流浪汉的混合策略。对此的可作如下解释:首先假定最优混合策略是存在的。给对此的可作如下解释:首先假定最优混合策略是存在的。给定流浪汉选择混合策略(定流浪汉选择混合策略(r r,1-r1-r),政府选纯策略救济(即),政府选纯策略救济(即=1=1)的期望效用为:)的期望效用为:(这里省略了选择第二个纯策略的概率)选择纯策略不救(这里省略了选择第二个纯策略的概率)选择纯策略不救济(即济(即=0=0)的期望效用为:)的期望效用为:如果一个混合策略 是政府的最优选择,则一定意味着政府救济与不救济之间是无差异的,即:上式意味着上式意味着 。即若。即若 政府将选择不救济;政府将选择不救济;,政府将选择救济;
39、只有当 时,政府才会选择混合策略 或任何纯策略。要找出政府的均衡混合策略,需求流浪汉的最优化问题。流浪汉的效用函数为:最优化一阶条件为:因此,该结论可解释为:若0.5,其最优选择是游荡;只有当=0.5时,他才选择混合策略 或任何纯策略。纳什均衡要求每个参与人的混合策略是给定对方的混合策纳什均衡要求每个参与人的混合策略是给定对方的混合策略下的最优选择。故略下的最优选择。故*=0.5*=0.5,r*=0.2r*=0.2是唯一的纳什均衡。即是唯一的纳什均衡。即在均衡时,政府以在均衡时,政府以0.50.5的概率选救济,的概率选救济,0.50.5的概率选不救济;的概率选不救济;流浪汉以流浪汉以0.20.
40、2的概率选找工作,以的概率选找工作,以0.80.8的概率选游荡。的概率选游荡。从反面进行说明。假定政府认为流浪汉找工作的概率严格从反面进行说明。假定政府认为流浪汉找工作的概率严格小于小于0.20.2,则政府的唯一最优选择是纯策略不救济;但若政府,则政府的唯一最优选择是纯策略不救济;但若政府以以1 1的概率选不救济,流浪汉的最优选择是找工作,这又将导的概率选不救济,流浪汉的最优选择是找工作,这又将导致政府选择救济,流浪汉则选游荡,致政府选择救济,流浪汉则选游荡,。因此,。因此,r0.2r0.2r0.2不构成纳什均衡。容易验证不构成纳什均衡。容易验证,0.50.50.5也都不构成纳也都不构成纳什均
41、衡。什均衡。纳什均衡的弱点:纳什均衡的弱点:l(1 1)多重性。同一博弈里有时会出现多个纳什均衡,多重性。同一博弈里有时会出现多个纳什均衡,即一般怀况下不能保证其唯一性即一般怀况下不能保证其唯一性.l(2 2)有些纳什均衡并不合理。)有些纳什均衡并不合理。女女足球足球芭蕾芭蕾男男足球足球2 2,1 10 0,0 0芭蕾芭蕾0 0,0 01 1,2 2 如在如在“性别战性别战”博弈中,有两个纯策略纳什均衡:博弈中,有两个纯策略纳什均衡:(足球,足球),(芭蕾,芭蕾)。事实上,可以验(足球,足球),(芭蕾,芭蕾)。事实上,可以验证,还有一个混合策略纳什均衡,即男的以证,还有一个混合策略纳什均衡,即
42、男的以2/32/3的概率的概率选择足球赛,以选择足球赛,以1/31/3的概率选择芭蕾舞;女的以的概率选择芭蕾舞;女的以1/31/3的的概率选择足球赛,以概率选择足球赛,以2/32/3的概率选择芭蕾舞。的概率选择芭蕾舞。一、一、博弈的扩展式表述博弈的扩展式表述 博弈树的构造(尤其是信息博弈树的构造(尤其是信息集的概念)集的概念)。二、将纳什均衡应用于扩展式博弈。二、将纳什均衡应用于扩展式博弈。三、定义和讨论完全信息动态博弈的基本概率三、定义和讨论完全信息动态博弈的基本概率子子博弈精炼纳什均衡及其求解方法。博弈精炼纳什均衡及其求解方法。四、子博弈精炼纳什均衡的应用举例。四、子博弈精炼纳什均衡的应用
43、举例。第三节第三节 完全信息动态博弈完全信息动态博弈 在静态博弈中,所有参与人同时行动(或行动虽有先在静态博弈中,所有参与人同时行动(或行动虽有先后,但没有人在自己行动之前观测到别人的行动);在动后,但没有人在自己行动之前观测到别人的行动);在动态博弈中,参与人的行动有先后顺序,且后行动者在行动态博弈中,参与人的行动有先后顺序,且后行动者在行动之前能观测到先行动者的行动。之前能观测到先行动者的行动。通常用扩展式表述分析动态博弈。博弈的扩展式表述通常用扩展式表述分析动态博弈。博弈的扩展式表述“扩展扩展”的主要是参与人的策略空间。策略式表述简单地的主要是参与人的策略空间。策略式表述简单地给出参与人
44、有些什么策略可供选择,而扩展式博弈要给出给出参与人有些什么策略可供选择,而扩展式博弈要给出每个策略的动态描述:谁在什么时候行动,每次行动有些每个策略的动态描述:谁在什么时候行动,每次行动有些什么具体行动可供选择,以及知道些什么。什么具体行动可供选择,以及知道些什么。一、博弈的扩展式表述 博弈的扩展式表述包括以下要素:(1)参与人集合:i=1,2,n;此外,将用N表示虚拟参与人“自然”。(2)参与人的行动顺序:谁在什么时候行动。(3)参与人行动空间:每次行动时,参与人有些什么选择。(4)参与人的信息集:每次行动时,参与人知道些什么。(5)参与人的支付函数:行动结束后,参与人得到些什么(支付是所有
45、行动的函数)。(6)外生事件(即自然的选择)的概率分布。如同两人有限策略博弈的策略式表述可用博弈矩阵表述一样,n人有限策略博弈的扩展式表述可用博弈树表示。以房地产开发为例。假定该博弈的行动顺序如下:(1)开发商A先行动,选开发或不开发;(2)在A决策后,自然选择市场需求的大小;(3)开发商B在观测到A的决策和市场需求后,决定开发或不开发。其博弈树如下表。博弈树给出了有限博弈的几乎所有信息,其基本构建包括:1.结(nodes):包括决策结(上面三个)和终点结(B的四个策结)。前者是参与人采取行动的时点,后者是博弈行动路径的终点。此例中,决策结包括1个空心圆和6个实心圆,终点结包括对应8个支付向量
46、的点。A(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)(0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1/2)(1/2)(1/2)(1/2)图8-1 2.枝(branches):枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。如A有两个选择,用“开发”和“不开发”两个枝表示。3.信息集(information sets)。博弈树上的所有决策结分割成不同的信息集。每个信息集是决策结集合的一个子集,该子集满足下列条件:(1)每个决策结都是同一参与人的决策结;(2)该参与人知道博弈进入该集合的某个决策结,但不知道
47、自己究竟处于哪一个决策结。引入信息集的目的在于描述:当一个参与人要作出决策时,他可能并不知道之前发生的所有事件。情形1:图8-1 中,假定B是在知道A和自然的选择后进行决策,此时,博弈树的7个决策结分割成7个信息集(每个信息集只包含一个决策结),意味着所有参与人在决策时准确地知道自己处于哪一个决策结。情形2:假定行动顺序如前,但B在决策时并不确切地知道自然的选择。此时,B的信息集由原来的4个变成2个,2个信息集分别对应着B的两个不同决策:若A开发,自己是否开发;若A不开发,B是否开发。用虚线将属于同一信息集的两个决策结连接起来(图8-2)。情形3:B知道自然的选择,但不知道A的选择(如B和A同
48、时决策)。此时,B也有两个信息集,每个信息集包含两个决策结:两处信息集分别对应两种不同的决策:需求大是否开发和需求小是否开发(图8-3)。A(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)(0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1/2)(1/2)(1/2)(1/2)图8-2 (4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)(0,0)开发不开发开发不开发开发不开发开发不开发BBBB大大小小开发不开发NN(1/2)(1/2)(1/2)(1/2)图8-3A 情形情形4 4:B知道N的选择但不知道A的选择,A
49、不知道N的选择(图8-4)。(0,0)不开发N(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)开发不开发开发不开发开发不开发开发BBBB开发开发不开发大小AA(1/2)(1/2)不开发图8-4 情形情形5 5:A A既不知道既不知道N N的选择也不知道的选择也不知道B B的选择,但的选择,但B B知道知道N N的选择的选择(图(图8-58-5)。)。N(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)开发不开发开发不开发开发不开发开发AAAA开发开发不开发大小BB(1/2)(1/2)不开发图8-5(0,0)一个信息集可能包括多个决策结,也可能只
50、包括一个决策结,后者叫做单结信息集。若博弈树的所有信息都是单结的,该博弈称为完美信息博弈,它意味着博弈中没有任何两个参与人同时行动,且所有后行动者能确切地知道前行动者选择了什么行动,所有参与人观测到自然的行动。在博弈树上,完美信息意味着没有任何两个决策结是用虚线连起来的。另外,扩展式表述也可用来描述静态博弈。试写出囚徒困境博弈的扩展式表述。(-8,-8)(0,-10)(-10,0)(-1,-1)坦白抵赖坦白抵赖BBA坦白抵赖 (-8,-8)(0,-10)(-10,0)(-1,-1)坦白抵赖坦白抵赖AAB坦白抵赖 从扩展式表述构造策略式表述。以房地产开发博弈为例。假定博弈开始之前自然就选择了“低