[人]微观经济学-第十章-博弈论初步.pptx

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/2/25,#,微观经济学,主讲人韩松,第十章博弈论初步,知识结构,知,识,结,构,博,弈,论,静态博,弈,不完全信息,动态博,弈,完全信息,基本要素,逆向归纳法,博,弈,树,支付矩阵,纯策略均衡,混合策略均衡,条件策略,下划线法,纳什均衡,囚徒困境,第一节策略和行为一、博弈的定义,企业行为相互影响，每个人进行的决策和采取的行动都会对其他人产生影响，根据其他人的可能反应来决定自己的决策和行动。,在策略性环境中，所进行的策略性决策和采取的策略性行动就是所谓的,博,弈,(,Game,),，进行博,弈,研究就是,博,弈,论,(,Game Theory,),。,1944,年,冯,诺依曼,和,摩根斯顿,共著,博,弈,论与经济行为,，将博,弈,论用于经济领域。,第一节策略和行为,一博,弈,的定义,1769,年，匈牙利的工程师坎比林为奥地利皇后做出一台会“下”棋的机器。,阿伦,图灵,的纸上机器。,贝尔实验室克劳迪,申朗提出的,A,策略和,B,策略。,1951,年，“计算机之父”,冯,诺依曼领导的研,究小组设计出,ENIAC,一号。,资料,下棋的机器,资料,下棋的机器,李世石与谷歌,AlphaGo,进行最后一轮较量，最终人机大战的总比分定格在,1:,4,。,视频,围棋人机大战,视频,围棋人机大战,第一节策略和行为二、要素和类型,参与者,：进行决策的个体至少有两个，有时可引入一个虚拟参与人如“自然”；,策略,：在一项规则下一组可选择行动集合；,支付,：各自的报酬，即所得到的支付，都是所有策略共同作用的结果,支付组合。,从多角度进行,博,弈,分类,，如两人博,弈,和多人博,弈,、零和博,弈,和非零和博,弈,、有限博,弈,和无限博,弈,、同时博,弈,和动态博,弈,。,第一节策略和行为,二要素和类型,合作博,弈,与非合作博,弈,：能否达成有约束力协议；,重复博,弈,与非重复博,弈,：具有连续性的特点；,零和博,弈,与非零和博,弈,：你的所失正是我的所得。,完全且完美,信息博,弈,完全但不完美,信息博,弈,不完全信息博,弈,海萨尼,转换,(,含自然,),资料,博弈的类型,资料,博弈的类型,类型区别,内容,完全信息,针对策略集和支付集,完美信息,针对记忆,(,过程,),，信息结点是唯一的,第二节纯策略均衡一、寡头和支付矩阵,假定在某个寡头市场上有甲、乙两个厂商。,列出一个只有两方厂商参加并且同时进行决策的简单博,弈,。,用一个以二元数组为元素的矩阵,(,亦称博,弈,矩阵或支付矩阵,),进行描述和分析。,第二节纯策略均衡,一寡头和支付矩阵,甲,厂,商,合,作,不,合,作,乙厂商,合作不合作,5,1,2,3,5,6,1,7,第二节纯策略均衡二、条件策略和组合,把甲厂商在乙厂商选择合作条件下最优策略,(,不合作,),叫做甲厂商的,条件优势策略,，因此与这一条件策略相联系的策略组合就叫,条件优势策略组合,。,条件策略包括参与人的条件策略及组合。,第二节纯策略均衡,二条件策略和组合,甲,厂,商,合,作,不,合,作,乙厂商,合作不合作,5,1,2,3,5,6,1,7,一位日本的收藏家无法决定让谁来拍卖画作，于是要求佳士得与苏富比老板猜拳定胜负。,佳士得老板向员工们讨教猜拳策略，最后，在一名主管,11,岁女儿建议下，决定出招,思考,猜拳出什么招？,思考,猜拳出什么招,第二节纯策略均衡三、纳什均衡,当厂商的条件策略组合恰好相同，从而都不再有单独改变策略的倾向时，整个博,弈,就达到均衡是博,弈,的解，称为,纳什,均衡,。,纳什均衡是参与者在该策略组合上，任何单独改变策略都不会得到好处；当所有其他人都不改变时，没有人会改变自己的策略。,假定支付不变时，由于存在着成本和风险，参与者也不愿意单独地改变策略。,第二节纯策略均衡,三纳什均衡,天才与疯子仅有一线之隔，疯子变常人的欣慰等同对天才沦为平庸的惋惜。,视频,纳什的命运,视频,纳什的命运,案例,华容道的纳什均衡,孔明曰：“亮夜观乾象，操贼未合身亡。留这人情，教云长做了，亦是美事。”,玄德曰：“先生神算，世所罕及！,案例,华容道的纳什均衡,孔,明,小,道,大,路,曹操,小道大路,逃脱,空等,拿下,被捉,拿下,被捉,逃脱,空等,小,猪,按,键,等,待,大猪,按键等待,9,-1,0,0,1,5,4,4,案例,孙刘的智猪博弈,孔明笑曰：“亮借一帆风，直至江东，凭三寸不烂之舌，说南北两军互相吞并。若南军胜，共诛曹操以取荆州之地；若北军胜，则我乘势以取江南可也。”,荆州是赤壁之战最重要的战果之一，却被出力很少的刘备摘去了。,案例,孙刘的智猪博弈,第二节纯策略均衡四、下划线法,条件均衡策略，用下划线分别来表示甲厂商和乙厂商的条件策略。,在甲厂商的支付矩阵中，找出每一列的最大数字；在乙厂商的支付矩阵中，找出每一行的最大数字。,都有下划线的组合。,第二节纯策略均衡,四下划线法,甲,厂,商,合,作,不,合,作,乙厂商,合作不合作,5,1,2,3,5,6,1,7,第二节纯策略均衡五、纳什均衡的特性,在同时博,弈,中，纯策略的纳什均衡有可能存在也可能不存在。,在纳什均衡存在的条件下，它可能是惟一的也可能不惟一。,如果纳什均衡存在，它可能是最优的也可能不是最优的。,第二节纯策略均衡,五纳什均衡的特性,甲,厂,商,合,作,不,合,作,乙厂商,合作不合作,4,1,2,3,5,6,1,4,第二节纯策略均衡六、囚徒困境,无论其他参与者采取什么策略，某一参与者惟一的最优策略就是他的,占优策略,，任何一方都不想偏离各自认为的最优策略。,囚徒困境,(Prisoners,Dilemma),反映个人理性和团体理性的冲突，从个人理性角度出发选择占优策略结局，从整体来看却是最差的。,根据“看不见的手”的原理，理性人在追求自己利益中，会同时增进整体福利。,第二节纯策略均衡,六囚徒困境,案例,空城计的占优策略,诸葛亮对司马懿的思想轨迹是相当了解；,诸葛亮的行径司马懿也能做出理性判断。,案例,空城计的占优策略,曹,家,使,用,杀,掉,司马,捉拿放走,20,10,-15,1,-10,3,-15,8,诸,葛,守,城,弃,城,司马,进攻撤退,平手,逃脱,被捉,拿下,拿下,被捉,双方都存在着偷换策略的诱惑，不稳定状态。,即使两个囚徒事先订立攻守同盟,(,死不坦白,),，最终也将会背叛同盟。,每个囚徒希望对方选择抵赖而自己坦白从而获释；当他们都这么想并这么做的时候，就形成都坦白的左上角结局。,甲,方,坦,白,不,坦,白,乙方,坦白不坦白,-20,0,-1,-1,-8,-8,0,-20,案例,囚徒困境,案例,囚徒困境,第三节混合策略均衡一、混合策略组合,将纯策略赋予不同的概率向量，是参与人的某种混合策略。,形成期望支付，求得条件混合策略。,第三节混合策略均衡,一混合策略组合,甲,厂,商,上,下,乙厂商,左右,1,9,2,8,4,6,3,7,q,1,q,2,p,1,p,2,在每一个参与人都只有有限多个纯策略的博,弈,中，至少存在一个混合策略纳什均衡。,第三节混合策略均衡二、混合策略均衡,第三节混合策略均衡,二混合策略均衡,o,p,1,q,1,1,1,乙厂商,0.5,0.7,甲厂商,e,1/2,1/2,11/2,11/2,思考,快餐店会扎堆么？,思考,快餐店会扎堆么,第四节动态博弈一、竞争者,-,垄断者,威胁策略,一定具有,可信性,，才能起到作用。,第四节动态博弈,一竞争者,-,垄断者,垄,断,者,容,忍,抵,抗,竞争者,进入退出,0,2,3,0,2,1,-2,4,垄,断,者,容,忍,抵,抗,竞争者,进入退出,0,5,3,0,4,1,-2,2,“中国人不怕原子弹，死一半也没什么，照样接着搞社会主义。”,强权政治、单边主义和恐怖活动都增加着文明毁灭的危险,局部核战争已是不可忽视的现实威胁。,“难道上个世纪的梦魇又回来了吗？”,案例,核武环峙中国,案例,核武环峙中国,第四节动态博弈二、博弈树,博,弈,树,模型又称为扩展型博,弈,模型，用博,弈,树来描述的序贯博,弈,又叫做扩展型博,弈,。,第四节动态博弈,二博,弈,树,竞争者,垄断者,a,b,c,垄断者,进入,退出,容忍,抵抗,容忍,抵抗,d,e,f,g,(1,4),(-2,2),(0,5),(0,3),起点,中间点,终点,蒙特卡洛树搜索，借助价值网络与策略网络，最初通过模仿人类玩家，尝试匹配职业棋手。,一旦达到一定的熟练程度，它开始和自己对,弈,，强化学习，它在用技巧，根本没有用力气。,资料,AlphaGo,的,AI,资料,AlphaGo,的,AI,第四节动态博弈三、逆向归纳法,在所有的纳什均衡中，找到最有可能实现的策略组合，这就是对纳什均衡的,精练,。,逆向归纳法,的两个步骤：第一，从最后阶段每一个决策点开始，确定参与人此时所选择策略，并把其他策略删除；第二，对简化博,弈,重复删除程序，直到最后的最简博,弈,。,实际上，逆向归纳策略,总是,属于纳什均衡，尽管纳什均衡并,不一定是,逆向归纳策略。,第四节动态博弈,三逆向归纳法,案例,恋爱的蜈蚣博弈,11,03,22,811,99,710,14,+1,+1,+1,+1,1+,1+,1+,1010,芳,芳,芳,芳,芳,呆,呆,呆,呆,呆,案例,恋爱的蜈蚣博弈,第四节动态博弈四、顺序与优势,动态博,弈,的行动存在着先后顺序，一些具有,先动优势,(,First-mover Advantage,),，另一些具有,后动优势,(,Second-mover Advantage,),。,在不完全信息下顺序更重要：产量竞争可能有先动优势，价格竞争可能有后动优势，但有的博,弈,如抓阄没有先动和后动优势。,优势是指自己某个策略相比较其他策略有优势，而不是相比对手策略一定有优势。,第四节动态博弈,四顺序与优势,支付,次序,A,B,C,D,E,案例,海盗分金币,案例,海盗分金币,97,0 1 2,0,第四轮,第三轮,第二轮,第一轮,100 0 0,98 0 1 1,第四节动态博弈五、策略与理性,与同时博,弈,相比较，动态博,弈,提供了更多的信息,关于参与人的决策秩序。,在具有“以牙还牙”策略无限次重复博,弈,中，厂商都会采取合作策略并遵守协议。,博,弈,论模型是,以理性为基础,的，使自己的收益最大化，难题是：要对所有影响策略和结果的因素和变量进行定义、限制、分离或解释，但总存在未知因素无法预期。,第四节动态博弈,五策略与理性,赌博害人终害己,!,出千者目的明确，都是为一夜暴富，但要知道出千的代价。,赌场到处是阴谋与陷阱，要想不致跌入深渊，就不要沾赌。,职业魔术师的行规里有明确规定，必须以正途来发展魔术。,案例,赌徒与出千,案例,赌徒与出千,确实是令人疯狂的游戏，然而赌局上有这么多陷阱等着你自己跳进来！,视频,赌场迷局,视频,赌场迷局,博,弈,论,静态博,弈,不完全信息,动态博,弈,完全信息,基本要素,逆向归纳法,博,弈,树,支付矩阵,纯策略均衡,混合策略均衡,条件策略,下划线法,纳什均衡,囚徒困境,回看要点,回,看,要,点,思考,真的乐不思蜀？,思考,真的乐不思蜀,

展开阅读全文