决策论初步课件.pdf_咨信网zixin.com.cn

资源描述

参考文献：岳超源决策理论与方法科学出版社2003.2 美迈尔森（著）于寅，费剑平（译）.博弈论一一矛盾冲突分析.经济出版社，2002,Decision theory:You are self-interested and selfish QGame theory:So is everyone else:“If its true that we are here to helpI Z others,then what exactly are the others It here for?”-George Carlin：别言:决策的含义牛津词典的解释The act of deciding/作决定的行动/A conclusive judgment/最终判决，结论性的判断The conclusion arrived at/得出的结论/中国大百科全书.自动控制与系统工程卷A决策”为最优地达到目标，对若干个备选的行动方案进行的选择。31言X介绍决策论的意义:“管理就是决策”。决策的普遍存在性:是课程“博弈论”的重要理论基础：一方面,:博弈分析语言要素的理论背景来源于决策:论，另一方面，博弈论可以看成是传统单X 人决策论向多人决策论的拓展31言大英百科全书中Decision TheoryA属于社会科学A描述人类的选择过程哈佛管理丛书考虑策略（或办法）来解决目前或未来问题的智力活动别言:决策分类:。不同准则对应不同分类法,Z:按照涉及范围分,A战略决策管理决策（行政决策）日常事务决策:。其中，管理决策是为了实现既定战略，进Z 行的计划、实施、控制与管理的决策。6-别言技策者与决策分析者三决策者是“领导”:面临 A不同人的利益冲突I A信息不完全Z 资源有限Z 决策环境/局势/复杂三:决策分析者则是以决策者的偏好为目标，利用技 x术手段进行分析的工作人员，如田忌赛马的孙膑和田忌C7:别言决策论(decision theory)与决策分析:(decision analysis)/狭义/:自然不确定下的最优选择理论X:以人/决策者/为研究主体X:不确定的含义(Knight,1921)/与随机决策的关系/31言口决策论(decision theory)与决策分析:(decision analysis)/广义/；三:单人与多人、群决策(X 中自然与人；:生物/动物与植物/Z:描述性决策论2:人工智能、模糊决策序贯决策I：口广义决策论，从某种意义上说，就是博 Z弈论。9 二策树，3 Q Qf 后果值，T 一、后果点 /机会枝兀:J 机会点/决策枝 HA 决策点Wikipedia(Decision theoryI：in philosophy,mathematics and statistics:is concerned with identifyingI Z the values,uncertainties and other issues 二 relevant in a given decision,its rationality,1 2 and the resulting optimal decision.12 J What kinds of decisions need a theory?z Choice under uncertainty不确定性与不确定条件下选择的公理一、不确定性的概念口所谓不确定性，是指行动的结果以某种概率P出现。口不确定性的产生是缘于自身能力的不确定性、行为的不独立性、信息的不对称等等。口对不确定性的讨论早在17世纪就出现了，当时伯努利就讨论了赌博和投机活动(gamble)。13主观概率9 口10A规范性p(S)=1可列可加性/不相容事件/:则称p/)为事件2发生的概率。20主观概率上述定义是以客观概率为研究背景的:主观概率(subjective probability)I;:客观概率(objective probability)。根据Savage(1954)的观点，主观概率是:一种见解/信念(belief):是主观的!:与客观世界又有联系的:博弈论决策论的理论基础既有主观概率，又客观概率。21主观概率X口主客观概率的比较:含义不同 A客观：系统固有的，是相同条件下重复实验|频率极限:A主观：某主体对.的信念:记号不同客观P A主观主观概率X口先验分布的设定。尚未进行任何实验或收集任何信息时，对的信念的数学表示。是贝叶斯分析的需要比较法(例1)。某人考博士生录取的概率的设定。该生考取记作事件E,事件E的补集(即考不取)记作EJ若该生根据收集到的有关信息，估计被录取的可能性是考不上的可能性的2 倍，则有(E)=2(EC):又由于(E)+(E，)二 l24H主观概率比较法（例2:某农民为确定当年种植作物的适宜品种，需要判断当年的气候状况。根据以往的统计资料和经验，他认为当年气候正常与受灾的可能性之比为3:2,如果受灾，水、旱灾之比约为1:1。记正常年景为Ah发生旱灾为A2,涝灾为A3,与前一个例题类似，可以求出该农民对当年气候的主观概率（具体过程从略）。26.:主观概率口直方图法:具体步骤为:将区间离散化把变量。的取值范围划分为z 若干子区间名,，e”:赋值设定每个子区间的似然率为ma),并根据这些似然率取值做出直方图z:变换把直方图变换成概率密度函数曲线:比如对于国民经济发展速度的确定.效用函数三口基本概念:效用定义!z 决策论最重要的概念A含义:口两类主要效用想法；:基数效用(cardinal utility)和序数效用 Z(ordinal utility)I Z 0Von Neumann&Morgenstern效用/v-N-Mi二效用29效用函数 QV-N-M效用最为经典:存在若干公理X 连通性X A传递性2 替代性:A连续性:由这些公理，可导出唯一形式的效用函数（X 正线性变换唯一）/1：p38,2：p7 uAllias悖论1:在网上查询3VNM效用函数H-二 VNM效用函数理论是20世纪50年代，冯诺依曼和摩根斯坦(Von Neumann；and Morgenstern)在公理化假设的基础；上，运用逻辑和数学工具，建立了不确定条件下对理性人(rational actor)选择进；行分析的框架。VNM效用函数如果某个随机变量X以概率Pi取值xi,而某人在确定地得到xi时的效用为u(xi),那么，该随机变量给他的效用便是:U(X)=E=P1u(x1)+P2u(x2)+.+Pnu(xn)其中，E表示关于随机变量X的期望效用。因此U(X)称为期望效用函数，又叫做冯诺依曼摩根斯坦效用函数(VNM函数)。32效用函数j 口效用函数包含的内容:对风险的态度:A风险厌恶(risk averse)：A风险中性(risk neutral)I:A风险追求(risk seek,risk preferring)33二、人们对风险的主观态度凹的效用函数(u(x)0,u7x)b或者记为bYa41J预备知识：理性选择理论(Theory of Rational Choice)。对于任意三个行动，如果满足ab。就能推出ac:则称偏好关系满足传递性(transitivity):如果行动。与b对于决策者来说，偏好程度一样，则可记为ab42 J:预备知识：理性选择理论(Theory of Rational Choice)Z:如果行动。与8对于决策者来说，偏好程度:为。不劣于仇则可记为一,a-b43：预番知识：理性选择理论(Theory of Rational Choice)X口综上，理性选择理论模型要求。存在一个可行的行动集合人；。，具有完全的偏好关系，即对于任意的a,:be 4ab 或 ab至少有一个表达式成立(亦可同时成立):关于行动的偏好关系具有传递性，即IF bc THEN cic44 二：预备知识：理性选择理论(Theory of Rational Choice)三口注意实际问题中，可能存在:Facing a,b,one chooses a,while,:Facing a,b,c,he may choose b 二 sometimes。上述选择不满足传递性要求。因此，理性选择理论存在一定的适用性45 二：预备知识：理性选择理论(Theory of Rational Choice)口基于支付函数的偏好表示-:支付函数的定义：函数u表示一个偏好关系,Z 如果，对于任何行动下列事实成 _s_ AZ_o。这里的支付函数实质上与经济学的效用函数没有本质的不同。46 二：预备知识：理性选择理论(Theory of Rational Choice):口一个简单的支付函数例子(1)(Payoff function for equivalent goods)A person can consume nonnegative amounts of two goods.She regards the goods as equivalent:she cares only about the total quantity of both goods that she consumes.(Maybe the goods are red shirts and blue shirts,and color does not concern her.)A payoff function that represents her preference relation is u%;x2)=x1+x2,where x1 and x2 are the quantities of the two goods she consumes.:预番知识：理性选择理论(Theory of Rational Choice)Instant exercise(payoff function for三 complementary goods)i Z OA person consumes two goods,which she(:regards as entirely complementary.One|-unit of either good is useless in thei Z absence of one unit of the other good.i X(Think of left shoes and right shoes.)Find2 a payoff function that represents her；-preferences.48.:预备知识：理性选择理论(Theory of Rational Choice)QThere are two types of preferences:Ordinal preferences:Cardinal preferences一 Here we explain some characters of cardinal preferences49:预番知识：理性选择理论(Theory of Rational Choice),QSome topics of ordinal preferences.7 This means In this sense,u(a)=0,u(d)=1,u=100 and y(a)=0,i/(b)=100,y=101 In a word,any other function w for which w(a)w(b)w(c):预番知识：理性选择理论(Theory of Rational Choice)QSome topics of ordinal preferences.*This means She prefers the action a to b to c,but It does not tell us how much5 she prefers a to b,orWhether she prefers a to b more than she prefers b to c51-预备知识：理性选择理论(Theory of Rational Choice)一 Discussion In some circumstances a person may be primarily influenced by other peoples actions-perhaps her main motivation is to be similar to other people,or to be different from them.52-完全信息静态博弈概念:口概念：各参与人对彼此的策略集、支付Z 函数有准确了解博弈行为同时进行:一些实例:石头、剪子、布游戏LZ。彼此了解的两个厂商的价格战53完全信息静态博弈概念z口有些实际博弈:虽然决策不是在绝对时间意义上的“同时”,。但决策的时间先后差别跟博弈结果没有关 z 系，也可看成是“同时进行的博弈”。:如不同竞标单位作出的工程投标决策:需要说明的是，一些实验分析结果，有时Z 与上述分析不一致54博弈的策略式表述X 口常用G表示一个博弈口博弈模型的两种表示形式:策略式表述(Strategic form),and二 Extensive formz 本章主要介绍博弈的策略式表述55H博弈的策略式表述Lx 口参与人集合:*2人博弈的参与人集合，往往也记为A/。参(Z 与人则记为/,片Nz:参与人泊勺策略集，记为S/.，其中的一个特定I X 策略，可记为S/,有sz W S八56 二博弈的策略式表述:对于给定的参与人/,/三12N,卡氏积SS2.xS/j X s/+1.x sn表示除了参与人汐卜所有参与人所有策略的可能组合，通常记为S；于是所有参与人不同策略组合构成的策略空间可表示为S=(S”S,)57 二博弈的策略式表述:*S/升的元素S,表示参与人/的一个具体策略:一旦确定了所有参与人的策略，便形成了一个博弈局势，表示为S=(s，S2,.SN),seSo博弈的策略式表述口参与人/的支付函数:参与人泊勺支付函数，是从博弈局势集2 s=S、S2XSN到实数集R的一个映射，记为:Uj(sv s2,.SN),表示参与人/对局势S=6,S2,I：.S/的偏好。口一个博弈可以表示为|：G=S1SN；，UN i 巨Nlz 这就是博弈的策略式表述59不坦白理坦白徒一1不坦白(0,-10)(-1,-1)坦白(电-8)(-10,0)博弈的策略式表述2例写出囚徒问题的策略式表述三:参与人集合N二囚徒1,囚徒2 三:参与人的策略集S二S2=坦白，不坦白三:各参与人的支付，可用图1-1表示。:囚徒2图1T囚徒问题的支付矩阵60不坦白理坦白徒一一不坦白(0,-10)(-1,-1)囚徒2坦白(电-8)(-10,0)博弈的策略式表述：:实质上，图1-1已经完全表述了囚徒困境的策略式I*表述信息I X:称图1为二人有限博弈的双矩阵（bimatrix 表述图1T囚徒问题的支付矩阵61:博弈的策略式表述口引入博弈的策略式表述，主要因为完全;信息静态博弈特别适于策略式表述;口需要说明，策略式表述也可表示一个动:态博弈（以后介绍）62 二:占优均衡口英文术语：Dominant-strategy:Equilibrium三口定义：在博弈中如果不管其他参与人选 Z 择什么策略，一个参与人的某个策略给 Z 他带来的支付值始终高于其他策略，或:至少不劣于其他策略，则称该策略为该 I 参与人的严格占优策略或占优策略。:占优均衡!口占优均衡定义;。一个博弈的某个策略组合中，如果对应的2 所有策略都是各参与人的占优策略，则称Z 该策略组合为该博弈的一个占优均衡。z。下面以囚徒困境问题为例，说明占优均衡,!并对囚徒困境问题稍加扩展分析。65 1占优均衡(-8,-8)(-10,0)呢坦白徒一一不坦白(0,-10)(-1,-1)Z 口占优战略均衡：每个参与人的占优战略组合（如果存一在的话）被称为占优战略均衡。囚徒2坦白不坦白图12囚徒问题的支付矩阵(-8,-8)(0,-10)(-10,0)(-1,-1)(-8,-8)(0,-10)(-10,0)(-1,-1)(-8,-8)(0,-10)(-10,0)(-1,-1)占优均衡囚徒2(-8,-8)(-10,0)(0,-10)(-1,-1)用坦白徒一一不坦白;因此，该博弈的策略组合（坦白、坦白）是占优均衡。坦白不坦白图12囚徒问题的支付矩阵70-I占优均衡合（不坦白,不坦白）坦呢坦白徒一一不坦白(0,-10)(-1,-1)(-8,-8)(-10,0)口但该占优均衡的收益,却劣于另外一个策略组O囚徒2白不坦白图12囚徒问题的支付矩阵71囚徒困境的扩展分析.First entered the literature in unpublished papers by Raiffa(1951)The interpretation of the game is due to Tucker(1950)Since then,thousands of researches related with prisoners dilemma.Maybe.the most famous model in GAME THEORY72一.v 一y-i-RPS,and 2RS+TFig.1-3 Prisoners Dilemma in general formPlayer 2Player 1ConfessDenyConfessR,RS,TDenyT,Sp,p囚徒困境的扩展分析口生活中的若干“囚徒困境问题”劣币驱逐良币”:勤奋与偷懒Duopoly。热费问题囚徒困境的扩展分析ix 口囚徒困境问题引发了相当多学者的关注 L:Economists,psychologists,sociologists,biologists口对囚徒困境问题的另一个相关著名事件;就是有关的试验分析方法。111E3试验往往考虑重复进行（多轮囚徒博弈）:对手保持不变（亦可随机匹配对手）；:某文献提供的一个证据：50%94%选择坦Z 白；在倒数1020轮中，78%选择了坦白；Z 允许双方交流情况下，坦白策略出现的频（X 率变小（29%70%78Robert Axelrod的著名实验9 口进行多轮囚徒博弈（重复博弈），采用巡回赛方式I*事先让参赛者给出预定策略累计最终得分Z 第一次参赛有15种战略（来自经济学、心理二学、社会学、政治学和数学领域学者），还 iz 有一个随机决定“坦白”、“不坦白”的随机战略；口结果一个叫“tit for tat”的策略获胜79Robert Axelrod的著名实验 htitfortat”的含义:以合作开始，然后“克隆”对三方上一步的策略。口Axelrod公布了公布了这个结果，并进行了第:二次巡回赛；：:来自6个国家63个程序参赛 Tit or tat再次获胜三口阿氏研究发表在科学上，并获得了年度大1 奖（名称待查）80 二Z Robert Axelrod的著名实验x口课后作业囚徒困境的启示.：字数不少于1000的论文（手写，不能打印）:结合任何你感兴趣的领域、话题、想法等Z 进行分析:重复剔除产劣策略均衡x口前面介绍了第一均衡概念一占优均衡（*（显然）并非所有博弈都存在占优均衡,;如石头剪子布游戏2对占优均衡概念稍加扩展，就得到重复2剔除严劣策略均衡概念82 3重复剔除产劣策略均衡(X 口“严劣”和“弱劣”的含义：I X:设S；和S；是参与人/可选择的两个策略，(Z 若对其他参与人的任意策略组合S.”均成立lZ mS.)V4,s)则说策略S；严劣于策略S：。:上面式子中，若将“V”改为M，则说策略S；I：弱劣于策略S；。83重复剔除产劣策略均衡X口重复剔除严劣策略均衡的定义:。重复剔除严格策略就是各参与人在其各自Z 策略集中，不断剔除严劣策略。如果最终各参与人仅剩下一个策略，则该:策略组合就被称为重复剔除严劣策略均衡。1,01,30,10,40,22,01,01,30,10,40,22,01,01,30,10,40,22,01,01,30,40,2重复剔除产劣策略均衡参 L 一与人-1：由于博弈的信息对于两个参与人来说是“完全的二因此，参与人1能够预测到参与人2 的这个推理过程参与人2中上下左1,01,30,40,2图1-5891,01,30,40,21,01,3重复剔除产劣策略均衡|9重复剔除严劣策略和共同知识*:重复剔除严劣策略实质上涉及到了博弈论一个重要假设理性是共同知识：(common knowledge)Z:所谓理性共同知识是指：参与人是理性 h 的，所有参与人知道所有参与人是理性 1 的，所有参与人知道所有参与人知道所 Z 有参与人是理性的.:结合重复剔除严劣策略机制，重复剔除的次数越多，对共同知识的要求越严格95 二重复剔除产劣策略均衡:在重复剔除严劣策略均衡中，均衡结果 z 与剔除顺序无关。Z 如果剔除策略方式不是“严劣”而是“弱劣”的，.则均衡结果可能与剔除顺序有关。Z A与占优均衡类似，并不是每个博弈都存在重复剔除严劣策略均衡。Z 纳什均衡(Nash Equilibrium)口定义。对于一个策略式表述的博弈G=N,S“Z u”片A/。称策略组合s*=s1，.与.，s,是一 z 个纳什均衡，如果对于每一个/.e N,S；是给定其他参与人选择*r*S./一，.,.,Sj+i,*,S冒j.情况下参与人/的最优策略（经济理性策略），LZ即：I-Ut s-,S_-U/（S”S.,*,对于任意的 s产 S/,任意的 Z 片N均成立。97Z 纳什均衡(Nash Equilibrium):口纳什均衡有强弱之分。上述定义给出的 z 是弱纳什均衡，若上式中的不等式对于；任意的5；对/.均严格成立，则该纳什均衡 f:是强纳什均衡。Z口通常在实际中采用的往往是弱纳什均衡。98Z 纳什均衡(Nash Equilibrium)一类简单的纳什均衡求解方法划线1法:一个抽象例子，见表图1-8参与人AZ 纳什均衡(Nash Equilibrium):先考虑A,当B分别采用策略L,C,R时，A 的最优策略分别为M,U,D参与人A纳什均衡(Nash Equilibrium):同理，当A分别采用U,M,D时，B的最优策略分别为:注意两个元素都标有横杆的格子，对应的策略为纳什均衡（为什么？）参与人B图1-8参LCR与 U0,405,3人 M4,00,45,3A D3,53,56,601

展开阅读全文

决策论初步 课件.pdf

决策论初步课件.pdf