1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/2/25,#,微观经济学,主讲人 韩松,第十章 博弈论初步,知识结构,知,识,结,构,博,弈,论,静态博,弈,不完全信息,动态博,弈,完全信息,基本要素,逆向归纳法,博,弈,树,支付矩阵,纯策略均衡,混合策略均衡,条件策略,下划线法,纳什均衡,囚徒困境,第一节 策略和行为 一、博弈的定义,企业行为相互影响,每个人进行的决策和采取的行动都会对其他人产生影响,根据其他人的可能反应来决定自己的决策和行动。,在策略性环境中,所进行的策略性决策和采 取的策略性行动就是所谓的,博,弈,(,Game,),,进行博,
2、弈,研究就是,博,弈,论,(,Game Theory,),。,1944,年,冯,诺依曼,和,摩根斯顿,共著,博,弈,论与经济行为,,将博,弈,论用于经济领域。,第一节 策略和行为,一 博,弈,的定义,1769,年,匈牙利的工程师坎比林为奥地利皇后做出一台会“下”棋的机器。,阿伦,图灵,的纸上机器。,贝尔实验室克劳迪,申朗提出的,A,策略和,B,策略。,1951,年,“计算机之父”,冯,诺依曼领导的研,究小组设计出,ENIAC,一号。,资料,下棋的机器,资料,下棋的机器,李世石与谷歌,AlphaGo,进行最后一轮较量,最终人机大战的总比分定格在,1:,4,。,视频,围棋人机大战,视频,围棋人机大
3、战,第一节 策略和行为 二、要素和类型,参与者,:进行决策的个体至少有两个,有时可引入一个虚拟参与人如“自然”;,策略,:在一项规则下一组可选择行动集合;,支付,:各自的报酬,即所得到的支付,都是所有策略共同作用的结果,支付组合。,从多角度进行,博,弈,分类,,如两人博,弈,和多人博,弈,、零和博,弈,和非零和博,弈,、有限博,弈,和无限博,弈,、同时博,弈,和动态博,弈,。,第一节 策略和行为,二 要素和类型,合作博,弈,与非合作博,弈,:能否达成有约束力协议;,重复博,弈,与非重复博,弈,:具有连续性的特点;,零和博,弈,与非零和博,弈,:你的所失正是我的所得。,完全且完美,信息博,弈,完
4、全但不完美,信息博,弈,不完全信息博,弈,海萨尼,转换,(,含自然,),资料,博弈的类型,资料,博弈的类型,类型 区别,内容,完全信息,针对策略集和支付集,完美信息,针对记忆,(,过程,),,信息结点是唯一的,第二节 纯策略均衡 一、寡头和支付矩阵,假定在某个寡头市场上有甲、乙两个厂商。,列出一个只有两方厂 商参加并且同时进行 决策的简单博,弈,。,用一个以二元数组为 元素的矩阵,(,亦称博,弈,矩阵或支付矩阵,),进行描述和分析。,第二节 纯策略均衡,一 寡头和支付矩阵,甲,厂,商,合,作,不,合,作,乙厂商,合 作 不合作,5,1,2,3,5,6,1,7,第二节 纯策略均衡 二、条件策略和
5、组合,把甲厂商在乙厂商选择合作条件下最优策略,(,不合作,),叫做甲厂商 的,条件优势策略,,因 此与这一条件策略相 联系的策略组合就叫,条件优势策略组合,。,条件策略包括参与人 的条件策略及组合。,第二节 纯策略均衡,二 条件策略和组合,甲,厂,商,合,作,不,合,作,乙厂商,合 作 不合作,5,1,2,3,5,6,1,7,一位日本的收藏家无法决定让谁来拍卖画作,于是要求佳士得与苏富比老板猜拳定胜负。,佳士得老板向员工们讨教猜拳策略,最后,在一名主管,11,岁女儿建议下,决定出招,思考,猜拳出什么招?,思考,猜拳出什么招,第二节 纯策略均衡 三、纳什均衡,当厂商的条件策略组合恰好相同,从而都
6、不再有单独改变策略的倾向时,整个博,弈,就达到均衡是博,弈,的解,称为,纳什,均衡,。,纳什均衡是参与者在该策略组合上,任何单独改变策略都不会得到好处;当所有其他人都不改变时,没有人会改变自己的策略。,假定支付不变时,由于存在着成本和风险,参与者也不愿意单独地改变策略。,第二节 纯策略均衡,三 纳什均衡,天才与疯子仅有一线之隔,疯子变常人的欣慰等同对天才沦为平庸的惋惜。,视频,纳什的命运,视频,纳什的命运,案例,华容道的纳什均衡,孔明曰:“亮夜观乾象,操贼未合身亡。留这人情,教云长做了,亦是美事。”,玄德曰:“先生神算,世所罕及!,案例,华容道的纳什均衡,孔,明,小,道,大,路,曹操,小 道
7、大 路,逃脱,空等,拿下,被捉,拿下,被捉,逃脱,空等,小,猪,按,键,等,待,大猪,按键 等待,9,-1,0,0,1,5,4,4,案例,孙刘的智猪博弈,孔明笑曰:“亮借一帆风,直至江东,凭三寸不烂之舌,说南北两军互相吞并。若南军胜,共诛曹操以取荆州之地;若北军胜,则我乘势以取江南可也。”,荆州是赤壁之战最重要的战果之一,却被出力很少的刘备摘去了。,案例,孙刘的智猪博弈,第二节 纯策略均衡 四、下划线法,条件均衡策略,用下划线分别来表示甲厂商和乙厂商的条件策略。,在甲厂商的支付矩阵 中,找出每一列的最 大数字;在乙厂商的 支付矩阵中,找出每 一行的最大数字。,都有下划线的组合。,第二节 纯策略
8、均衡,四 下划线法,甲,厂,商,合,作,不,合,作,乙厂商,合 作 不合作,5,1,2,3,5,6,1,7,第二节 纯策略均衡 五、纳什均衡的特性,在同时博,弈,中,纯策略的纳什均衡有可能存在也可能不存在。,在纳什均衡存在的条 件下,它可能是惟一 的也可能不惟一。,如果纳什均衡存在,它可能是最优的也可 能不是最优的。,第二节 纯策略均衡,五 纳什均衡的特性,甲,厂,商,合,作,不,合,作,乙厂商,合 作 不合作,4,1,2,3,5,6,1,4,第二节 纯策略均衡 六、囚徒困境,无论其他参与者采取什么策略,某一参与者惟一的最优策略就是他的,占优策略,,任何一方都不想偏离各自认为的最优策略。,囚徒
9、困境,(Prisoners,Dilemma),反映个人理性和团体理性的冲突,从个人理性角度出发选择占优策略结局,从整体来看却是最差的。,根据“看不见的手”的原理,理性人在追求自己利益中,会同时增进整体福利。,第二节 纯策略均衡,六 囚徒困境,案例,空城计的占优策略,诸葛亮对司马懿的思想轨迹是相当了解;,诸葛亮的行径司马懿也能做出理性判断。,案例,空城计的占优策略,曹,家,使,用,杀,掉,司马,捉拿 放走,20,10,-15,1,-10,3,-15,8,诸,葛,守,城,弃,城,司马,进攻 撤退,平手,逃脱,被捉,拿下,拿下,被捉,双方都存在着偷换策略的诱惑,不稳定状态。,即使两个囚徒事先订立攻守
10、同盟,(,死不坦白,),,最终也将会背叛同盟。,每个囚徒希望对方选择抵赖而自己坦白从而获释;当他们都这么想并这么做的时候,就形成都坦白的左上角结局。,甲,方,坦,白,不,坦,白,乙方,坦 白 不坦白,-20,0,-1,-1,-8,-8,0,-20,案例,囚徒困境,案例,囚徒困境,第三节 混合策略均衡 一、混合策略组合,将纯策略赋予不同的概率向量,是参与人的某种混合策略。,形成期望支付,求得 条件混合策略。,第三节 混合策略均衡,一 混合策略组合,甲,厂,商,上,下,乙厂商,左 右,1,9,2,8,4,6,3,7,q,1,q,2,p,1,p,2,在每一个参与人都只有有限多个纯策略的博,弈,中,至
11、少存在一个混合策略纳什均衡。,第三节 混合策略均衡 二、混合策略均衡,第三节 混合策略均衡,二 混合策略均衡,o,p,1,q,1,1,1,乙厂商,0.5,0.7,甲厂商,e,1/2,1/2,11/2,11/2,思考,快餐店会扎堆么?,思考,快餐店会扎堆么,第四节 动态博弈 一、竞争者,-,垄断者,威胁策略,一定具有,可信性,,才能起到作用。,第四节 动态博弈,一 竞争者,-,垄断者,垄,断,者,容,忍,抵,抗,竞争者,进入 退出,0,2,3,0,2,1,-2,4,垄,断,者,容,忍,抵,抗,竞争者,进入 退出,0,5,3,0,4,1,-2,2,“中国人不怕原子弹,死一半也没什么,照样接着搞社会
12、主义。”,强权政治、单边主义和恐怖活动都增加着文明毁灭的危险,局部核战争已是不可忽视的现实威胁。,“难道上个世纪的梦魇又回来了吗?”,案例,核武环峙中国,案例,核武环峙中国,第四节 动态博弈 二、博弈树,博,弈,树,模型又称为扩展型博,弈,模型,用博,弈,树来描述的序贯博,弈,又叫做扩展型博,弈,。,第四节 动态博弈,二 博,弈,树,竞争者,垄断者,a,b,c,垄断者,进入,退出,容忍,抵抗,容忍,抵抗,d,e,f,g,(1,4),(-2,2),(0,5),(0,3),起点,中间点,终点,蒙特卡洛树搜索,借助价值网络与策略网络,最初通过模仿人类玩家,尝试匹配职业棋手。,一旦达到一定的熟练程度,
13、它开始和自己对,弈,,强化学习,它在用技巧,根本没有用力气。,资料,AlphaGo,的,AI,资料,AlphaGo,的,AI,第四节 动态博弈 三、逆向归纳法,在所有的纳什均衡中,找到最有可能实现的策略组合,这就是对纳什均衡的,精练,。,逆向归纳法,的两个步骤:第一,从最后阶段每一个决策点开始,确定参与人此时所选择策略,并把其他策略删除;第二,对简化博,弈,重复删除程序,直到最后的最简博,弈,。,实际上,逆向归纳策略,总是,属于纳什均衡,尽管纳什均衡并,不一定是,逆向归纳策略。,第四节 动态博弈,三 逆向归纳法,案例,恋爱的蜈蚣博弈,11,03,22,811,99,710,14,+1,+1,+
14、1,+1,1+,1+,1+,1010,芳,芳,芳,芳,芳,呆,呆,呆,呆,呆,案例,恋爱的蜈蚣博弈,第四节 动态博弈 四、顺序与优势,动态博,弈,的行动存在着先后顺序,一些具有,先动优势,(,First-mover Advantage,),,另一些具有,后动优势,(,Second-mover Advantage,),。,在不完全信息下顺序更重要:产量竞争可能有先动优势,价格竞争可能有后动优势,但有的博,弈,如抓阄没有先动和后动优势。,优势是指自己某个策略相比较其他策略有优势,而不是相比对手策略一定有优势。,第四节 动态博弈,四 顺序与优势,支付,次序,A,B,C,D,E,案例,海盗分金币,案例
15、,海盗分金币,97,0 1 2,0,第四轮,第三轮,第二轮,第一轮,100 0 0,98 0 1 1,第四节 动态博弈 五、策略与理性,与同时博,弈,相比较,动态博,弈,提供了更多的信息,关于参与人的决策秩序。,在具有“以牙还牙”策略无限次重复博,弈,中,厂商都会采取合作策略并遵守协议。,博,弈,论模型是,以理性为基础,的,使自己的收益最大化,难题是:要对所有影响策略和结果的因素和变量进行定义、限制、分离或解释,但总存在未知因素无法预期。,第四节 动态博弈,五 策略与理性,赌博害人终害己,!,出千者目的明确,都是为一夜暴富,但要知道出千的代价。,赌场到处是阴谋与陷阱,要想不致跌入深渊,就不要沾赌。,职业魔术师的行规里有明确规定,必须以正途来发展魔术。,案例,赌徒与出千,案例,赌徒与出千,确实是令人疯狂的游戏,然而赌局上有这么多陷阱等着你自己跳进来!,视频,赌场迷局,视频,赌场迷局,博,弈,论,静态博,弈,不完全信息,动态博,弈,完全信息,基本要素,逆向归纳法,博,弈,树,支付矩阵,纯策略均衡,混合策略均衡,条件策略,下划线法,纳什均衡,囚徒困境,回看要点,回,看,要,点,思考,真的乐不思蜀?,思考,真的乐不思蜀,