1、主要内容主要内容n1管理决策管理决策n2 不确定性问题的决策不确定性问题的决策n3风险型决策分析风险型决策分析n4 博弈与决策博弈与决策n5 冲突分析冲突分析1 管理决策n一、基本概念n决策是管理的重要职能,它是决策者对系统方案所做决定的过程和结果,决策是决策者的行为和职责。n按照H.A.西蒙(H.A.Simon)的观点,“管理就是决策”。n因此,决策分析的一般过程也即管理系统分析的过程。n决策是一种过程n情报活动、设计活动、抉择活动、实施活动1 管理决策n决策问题的基本模式决策问题的基本模式n(,j j)n:决策者的第种策略或者方案策略或者方案,使决策变量,决策者可以控制nj j:决策者和决
2、策问题所出的第种环境环境条件,是状态变量条件,是状态变量,决策者不可控;n:决策者在第中状态下选择第种方案的结果,是决策问题的价值函数值,决策问题的价值函数值,一般叫做损益值、效用值一般叫做损益值、效用值决策问题的要素决策问题的类型 完全把握 确定性决策 不完全把握 风险性决策 完全不把握 对自然不确定 不确定性决策 对人的不确定 对抗性决策(对策)A A 政治、经济、军事、能源、人口、教育等决策 战略、战术等决策 W W 定性、定量、模糊决策 单目标、多目标决策 隐式、显式决策 决策者决策者 个人、群体决策1 管理决策n决策问题分类决策问题分类n例子:某部门要进行工程项目建设,经过估算可知:
3、如果下月开工建设,天气好,则可以按时完工,企业能获得收益元;n如果开工后天气不好,则不能正常施工,企业损失元;n不论天气好坏,均不开工,企业损失元;n请作出是否开工决策?1 管理决策n1)确定型决策)确定型决策n知道决策人知道可靠的天气预报信息,则可以做出确定型决策.比如,直到下个月是好天气,则决策为:天气好开工不开工1 管理决策n确定型决策必须具备的条件n存在着决策人希望达到的一个目标(比如 利润最大)n只存在一个确定的自然状态(比如天气好)n存在着可供决策人选择的两个或者两个以上的行动方案(策略)n不同行动方案存在确定的自然状态下的损益值,通过计算,可以定量表示1 管理决策n2)风险型决策
4、)风险型决策n又叫做统计型决策或者随机型决策n在上例中,如果决策人能够获知下月天气好坏的概率信息,则其决策问题就是风险型决策天气好天气不好概率(0.2)概率(0.8)开工50000-10000不开工-5000-5000开工:.().不开工:.2+(-5000).=-5000决策:开工决策:开工1 管理决策n风险型决策存在的条件风险型决策存在的条件n存在着决策人希望达到的一个目标存在着决策人希望达到的一个目标n存在着两个或者两个以上不以决策人主观意志为转存在着两个或者两个以上不以决策人主观意志为转移的自然状态移的自然状态n存在着两个或者两个以上可供决策人选择的行动方存在着两个或者两个以上可供决策
5、人选择的行动方案案n不同方案在不同自然状态下的损益值,可以定量表不同方案在不同自然状态下的损益值,可以定量表示示n在几种状态中,未来究竟出现哪一种的可能性,可在几种状态中,未来究竟出现哪一种的可能性,可以预先估算出来;以预先估算出来;1 管理决策n3)不确定性决策)不确定性决策n不知道各类自然状态今后发生的概率信息n例子:某企业要生产新产品,有三种方案,建立新的自动化生产线(方案A1),改建原有的生产线(方案A2),在原来的生产线继续生产(方案A3)n对该产品的市场销量的估计为:需要量很大,一般,较低,很低等四种情况。经过估算,在不同的生产线方案下,不同销售状态下的损益值如下表:1 管理决策较
6、高一般较低很低P1P2P3P4新建自动生产线A1850420-150-400改建生产线A2600400-100-350原有车间生产A340025090-50缺少关于各种自然状态(销售好坏)出现的概率信息,所以是不确定性决策不确定性决策1 管理决策n4.对抗型决策对抗型决策Wij=f(Ai,Bj)i=1,m,j=1,n其中:A决策者的策略集;B竞争对手的策略集可采用对策论及其冲突分析等方法来分析解决。这类决策分析问题是当前管理、经济界比较关注的问题。n5.多目标决策多目标决策决策分析过程n1 信息活动n为决策收集足够的、准确的信息n2 设计活动n选择决策目标,即确定决策的依据和准则。n3 抉择活
7、动n根据已确定的准则,对各种方案进行分析、计算和评价,用以选出一个最优方案的活动过程n4 实施活动n对决策的方案进行实施、跟踪和学习。风险性决策分析过程风险性决策分析过程n确定决策模型结构:构建决策树确定决策模型结构:构建决策树n估算各行动方案下的损益值:估计备选方案在估算各行动方案下的损益值:估计备选方案在不同环境状态下所付出的代价和取得的收益不同环境状态下所付出的代价和取得的收益n确定主观概率:估计未来环境中各种状态出现确定主观概率:估计未来环境中各种状态出现的概率的概率n评价方案:按估计的后果和概率计算备选方案评价方案:按估计的后果和概率计算备选方案的效益(效用)指标,按照效益(效用)最
8、大的效益(效用)指标,按照效益(效用)最大者为最优方案者为最优方案风险性决策分析过程风险性决策分析过程n灵敏度分析:由于后果值和概率的主观灵敏度分析:由于后果值和概率的主观性和不确定性,确定决策模型中参数的性和不确定性,确定决策模型中参数的变化范围变化范围n收集信息:对灵敏度高的参数需收集更收集信息:对灵敏度高的参数需收集更多信息进行研究,但考虑信息价值问题多信息进行研究,但考虑信息价值问题n选择方案选择方案主要内容主要内容n1管理决策管理决策n2 不确定性问题的决策不确定性问题的决策n3风险型决策分析风险型决策分析n4 冲突分析冲突分析2 不确定型问题的决策不确定型问题的决策n决策者根据自己
9、的主观倾向进行决策,决策者根据自己的主观倾向进行决策,根据决策者主观态度不同有以下五种常根据决策者主观态度不同有以下五种常用的决策准则和方法:用的决策准则和方法:悲观主义准则悲观主义准则 乐观主义准则乐观主义准则 乐观系数准则乐观系数准则 最小机会损失准则最小机会损失准则 等可能性准则等可能性准则悲观主义准则悲观主义准则n从各方案的从各方案的最小益损值最小益损值中选择中选择最大的最大的,也称也称“小中取大小中取大”法,是一种万无一失法,是一种万无一失的保守型决策者的选择准则。的保守型决策者的选择准则。较高一般较低很低P1P2P3P4新建自动生产线A1850420-150-400改建生产线A26
10、00400-100-350原有车间生产A340025090-50悲观主义准则悲观主义准则n把每个方案在不同自然状态下的最小损益值找出来n则MinA1850,420,-150,-400=-400nMinA2600,400,-100,-350=-350nMinA3400,250,90,-50=-50n然后从各方案的最小损益值中找到一个最大的nMax-400,-350,-50=-50n与最大值相对应的方案是A3,则选择A3方案乐观主义准则乐观主义准则n决策者对客观情况总是抱乐观态度,从各方案决策者对客观情况总是抱乐观态度,从各方案最大益损值中选择最大的,也称最大益损值中选择最大的,也称“大中取大大中
11、取大”。是一种偏于冒进的决策准则。是一种偏于冒进的决策准则。n把每个方案在不同自然状态下的最大损益值找出来n则MinA1850,420,-150,-400=850nMinA2600,400,-100,-350=600nMinA3400,250,90,-50=400n然后从各方案的最大损益值中找到一个最大的nMax850,600,400=850n与最大值相对应的方案是A1,则选择A1方案乐观系数准则乐观系数准则n一种折衷准则,决策者对客观条件的估计既不一种折衷准则,决策者对客观条件的估计既不乐观也不悲观,主张一种平衡,用一个乐观系乐观也不悲观,主张一种平衡,用一个乐观系数数(01)(01),计算
12、各方案的折衷益损值,计算各方案的折衷益损值,从中选取最大的。从中选取最大的。n计算方法计算方法n求取各方案的最大损益值求取各方案的最大损益值ximaxximaxn求取各方案的最小损益值求取各方案的最小损益值ximinximinn各方案的折衷损益值为各方案的折衷损益值为Xi=Ximax+Xi=Ximax+(1-1-)XiminXiminnXiXi最大者为最优方案最大者为最优方案乐观系数准则乐观系数准则S1 S2 S3 S4=0.7 A1 20012545-25132.5A2 300200-50-175157.5A3 425210-75-200237.5后悔值准则后悔值准则n决策者一般易于接受某状
13、态下收益最大的方案,决策者一般易于接受某状态下收益最大的方案,但由于无法预知那一状态一定出现,当决策者但由于无法预知那一状态一定出现,当决策者没有采纳收益最大的方案,就会感到后悔。没有采纳收益最大的方案,就会感到后悔。n求取每个状态下,最大收益值与其他收益值之求取每个状态下,最大收益值与其他收益值之差作为后悔值或机会损失值,然后从各方案的差作为后悔值或机会损失值,然后从各方案的最大后悔值中选取最小值,与之对应的方案就最大后悔值中选取最小值,与之对应的方案就是最优方案是最优方案后悔值准则后悔值准则较高较高一般一般较低较低很低很低P1P2P3P4新新建建自自动动生生产产线线A1850*420*-1
14、50-400改建生产线改建生产线A2600400-100-350原有车间生产原有车间生产A340025090*-50*1)先找出对应各种自然状态下自然状态下每个行动方案的最大损益值,用*标注后悔值准则后悔值准则n求出各方案在不同自然状态下的后悔值较高较高一般一般较低较低很低很低P1P2P3P4新建自动生产线新建自动生产线A1850*-850=0420*-420=090*-(-150)=240-50*-(-400)=350改建生产线改建生产线A2850*-600=250420*-400=-2090*-(-100)=190-50*-(-350)=300原有车间生产原有车间生产A3850*-400=
15、450420*-250=17090*-90*=0-50*-50=0后悔值准则后悔值准则n从各方案的最大后悔值中,找出最小后悔值nMin350,300,450=300n与之对应的行动方案是A2等可能性准则等可能性准则n决策者不能肯定那种状态会出现,采取一视同决策者不能肯定那种状态会出现,采取一视同仁的态度,认为出现的可能性相等,有仁的态度,认为出现的可能性相等,有n n个状个状态,其出现的概率均为态,其出现的概率均为1/n1/n,计算各方案的期,计算各方案的期望最大收益值,从中选取最大的。望最大收益值,从中选取最大的。n例如:例如:S1 S2 S3 S4ER A1 20012545-2586.2
16、5A2 300200-50-17568.75A3 425210-75-20090主要内容主要内容n1管理决策管理决策n2 不确定性问题的决策不确定性问题的决策n3风险型决策分析风险型决策分析n4 冲突分析冲突分析3风险型决策分析风险型决策分析n风险型决策也称随机型决策或统计型决风险型决策也称随机型决策或统计型决策策n最大可能性法最大可能性法n最大期望收益准则(最大期望收益准则(Expected Monetary Expected Monetary Value,EMVValue,EMV)n最小机会损失准则(最小机会损失准则(Expected Expected Opportunity Loss,E
17、OLOpportunity Loss,EOL)n决策树法决策树法最大可能性法最大可能性法n从可能出现的状态中,选择一个概率最大的状态进行从可能出现的状态中,选择一个概率最大的状态进行决策,而不考虑其他状态,问题转化为确定型决策决策,而不考虑其他状态,问题转化为确定型决策n应用条件:在收益矩阵中的元素差别不大,而各状态应用条件:在收益矩阵中的元素差别不大,而各状态中某一状态的概率明显地大的多;中某一状态的概率明显地大的多;n如果各状态概率很接近,而益损值相差较大时,不宜如果各状态概率很接近,而益损值相差较大时,不宜采用。采用。S1(0.1)S2(0.8)S3(0.1)甲406015乙504030
18、丙604010丁50305EMVEMV和和EOLEOLn决策目标考虑的是收益值,计算各方案决策目标考虑的是收益值,计算各方案的期望收益值,从中选择期望收益最大的期望收益值,从中选择期望收益最大的。的。n决策目标考虑的是损失值,计算各方案决策目标考虑的是损失值,计算各方案的期望损失值,从中选取期望损失最小的期望损失值,从中选取期望损失最小的。的。决策树法决策树法n描述多级决策(序列决策)的工具描述多级决策(序列决策)的工具n所谓决策树法就是利用树形图模型来描述决策所谓决策树法就是利用树形图模型来描述决策分析问题,并直接在决策树图上进行决策分析。分析问题,并直接在决策树图上进行决策分析。n“”表示
19、决策节点,从它引出的分枝为方案枝,表示决策节点,从它引出的分枝为方案枝,分枝数量与方案数量相同,分枝上要注明方案分枝数量与方案数量相同,分枝上要注明方案名称。名称。n“O”表示状态节点,从它引出的分枝为状态分表示状态节点,从它引出的分枝为状态分枝或概率分枝,分枝数量与可能出现的自然状枝或概率分枝,分枝数量与可能出现的自然状态数量相同,分枝上要注明状态出现的概率。态数量相同,分枝上要注明状态出现的概率。“”表示结果节点,不同方案在各种状态下所表示结果节点,不同方案在各种状态下所取得的结果(益损值),标注在结果节点的右取得的结果(益损值),标注在结果节点的右端。端。决策树决策树1级决策级决策2级决
20、策级决策A1A2A3S1S2S3决策树举例决策树举例n有一钻探队做石油钻探,可以先做地震试验,费用为有一钻探队做石油钻探,可以先做地震试验,费用为0.30.3万元万元/次,然后决定钻井与否,钻井费用为次,然后决定钻井与否,钻井费用为1 1万元,万元,出油收入为出油收入为4 4万元。万元。n根据历史资料,试验结果好的概率为根据历史资料,试验结果好的概率为0.60.6,不好的概率,不好的概率为为0.40.4;n结果好钻井出油的概率为结果好钻井出油的概率为0.850.85,不出油的概率为,不出油的概率为0.150.15;n结果不好钻井出油的概率为结果不好钻井出油的概率为0.10.1,不出油的概率为,
21、不出油的概率为0.90.9。n也可不做试验而直接凭经验决定是否钻井,这时出油也可不做试验而直接凭经验决定是否钻井,这时出油的概率为的概率为0.550.55,不出油的概率为,不出油的概率为0.450.45,试用决策树进,试用决策树进行决策。行决策。决策树计算决策树计算试验-0.3不试验好0.6不好0.4钻井不-10.850.154004004003.42.40.402.21.21.441.20.10.90.550.45不出油结论:不试验直接钻井,期望收入为结论:不试验直接钻井,期望收入为1.21.2万元。万元。钻井不钻井钻井不钻井多级决策树n某化妆品公司生产BF型号护肤化妆品。由于现有生产工艺比
22、较落后,产品质量不易保证且成本较高,销路受到影响。n在产品价格保持现有水平时无利可图,当产品价格下降时还要亏本,只是在产品价格上涨时才稍有盈利。n为此公司决定要对该产品生产工艺进行改进,提出两种方案以供选择:n一是从国外引进一条自动化程度较高的生产线;n另一是自行设计一条有一定水平的生产线。多级决策树n根据公司以往引进和自行设计的工作经验显示,引进生产线投资较大,但产品质量好且成本较低,年产量大,引进技术的成功率为80%。n而自行设计生产线,投资相对较小,产品质量也有保证,成本也较低,年产量也大,但自行设计的成功率只有60%。n进一步考虑到无论是引进或自行设计生产线,产量都能增加。多级决策树n
23、因此,公司生产部门又制定了两个生产方案:一是产量与过去相同(保持不变),一是产量增加,为此又需要进行决策。n最后,若引进或自行设计均不成功,公司只得仍采用原有生产工艺继续生产,产量自然保持不变。n公司打算该护肤化妆品生产5年。n根据以往价格统计资料和市场预测信息,该类产品在今后5年内价格下跌的概率为0.1;n保持原价的概率为0.5,而涨价的概率为0.4。跌价原价涨价0.10.50.4 按原有工艺生产-1000125引进生产线A1(成功率0.8)产量不变B1-25080200产量增加B2-400100300自行设计生产线A2(成功率0.6)产量不变B1-2500250产量增加B2-350-250
24、650状态概率损益值方案产量不变B1跌价(0.1)原价(0.5)上涨(0.4)-100012540跌价(0.1)原价(0.5)上涨(0.4)-2508020095跌价(0.1)原价(0.5)上涨(0.4)-100012540跌价(0.1)原价(0.5)上涨(0.4)-250025075跌价(0.1)原价(0.5)上涨(0.4)-350-250650100跌价(0.1)原价(0.5)上涨(0.4)-400100300130产量不变B1自行设计生产线A2引进生产线A1产量增加B2产量增加B213076100112112失败(0.2)成功(0.8)成功(0.6)失败(0.4)信息价值分析信息价值分析
25、n在灵敏度分析后,有些关键状态的概率有时灵在灵敏度分析后,有些关键状态的概率有时灵敏度很高,需要进一步收集信息,提高先验概敏度很高,需要进一步收集信息,提高先验概率的精度,来更准确可靠地评定这些参数。率的精度,来更准确可靠地评定这些参数。n进一步收集信息需要进行进一步收集信息需要进行“调查研究调查研究”,通过,通过收集样本、统计分析取得更可靠的信息。收集样本、统计分析取得更可靠的信息。n“调查研究调查研究”所得到的咨询信息一般都有误差,所得到的咨询信息一般都有误差,调研结果要考虑其失误的可能性调研结果要考虑其失误的可能性n“调查研究调查研究”需要费用,不管咨询结果是否有需要费用,不管咨询结果是
26、否有用,都得付费,因此在调研前要考虑所得到的用,都得付费,因此在调研前要考虑所得到的信息用途多大,即信息的价值分析。信息用途多大,即信息的价值分析。n为了衡量调研人员提供信息的用途大小,一般为了衡量调研人员提供信息的用途大小,一般根据历史资料,用该人员(单位)过去提供正根据历史资料,用该人员(单位)过去提供正确或不正确信息的概率来表示。确或不正确信息的概率来表示。信息价值分析信息价值分析n决策所需的信息一般可以分为两类。n一类是完全信息,即据此可以得到完全肯定的自然状态信息,这样就有助于正确的决策,从而使决策结果能获得较大的收益,但为获得完全信息的代价也相当可观,而且在现实中和在多数情况下,要
27、获得这种完全信息也较为困难或根本不可能做到;n另一类是抽样信息,这是一类不完全可靠的信息。通过抽样所获得的信息,用统计方法来推断自然状态出现的概率,据此来选择行动方案。抽样信息虽不十分可靠,但为获得此类信息的代价也较小,且在实际中和在多数情况下,也只可能获得这类信息以供决策之需。完全信息价值完全信息价值 n某化工厂生产一种化工产品,据对统计资料的分析表明,该产品的次品率可以分成五个等级(即五种状态),每种等级(状态)的概率如表73所示。n进一步的分析可知,产品次品率的高低与该产品所用主要原粒的纯度有关。今已知,化工原料纯度高,次品率低(如S10.02),反之则次品率高(S50.20)。而化工原
28、料的纯度高低,又与运输、保存日期等因素有关。完全信息价值完全信息价值纯度状态(次品率)S1(0.02)S2(0.05)S3(0.10)S4(0.15)S5(0.20)概率0.200.200.100.200.30完全信息价值完全信息价值n为此,工厂主管生产的部门建议在生产该产品前,先对该化工原料增加一道“提纯”工序,通过提纯工序,能使全部原料都处于S1状态,从而降低了次品率。n但增加提纯工序就增加了工序费用,经过核算可知,每批原料的提纯费用为3400元。经估算,在不同纯度状态下其益损值如表74所示。n如果在生产前,先将化工原料检验一下,通过检验可以完全掌握每批化工原料处于何种纯度状态,这样可以对
29、不同纯度的原料采用不同策略,即提纯或不提纯,从而使益损期望值为最大。完全信息价值完全信息价值S1S2S3S4S50.200.200.100.200.30提纯(A1)10001000100010001000不提纯(A2)440032002000800-400状态概率损益值方案完全信息价值完全信息价值n由图76可知,通过检验,当某批原料纯度处于S1、S2或S3状态时,采用A2(不提纯)方案,其益损值大于A1方案。n反之若处于S4或S5状态时,则采用A1(提纯)方案,这时其益损值大于A2方案。n据此可计算益损期望值为2220元。与没有经过检验工序相比,由于通过检验完全知道原料纯度的状态信息,因此可得
30、完全信息的价值为2220-1760=460元。n通过该例可知,为获得完全信息所要付出的代价,不应大于完全信息所能得到的收益期望,本例中即不应大于460元n本例如图76中提纯方案分枝菱形内的数字为50,即增加检验工序只花费50元,而能多获460元的收益。因此,增加检验工序是可取的。抽样信息价值抽样信息价值 n某家电公司由于原产品结构已陈旧落后,产品质量差而销路不广。为满足广大消费者日益增长的需要,公司拟对产品结构进行改革,制定了两种设计方案。n全新设计方案(A1),即产品结构全部重新设计;n改型设计方案(A2),即在原有产品结构基础上加以改进。抽样信息价值抽样信息价值n如采用全新设计方案,由于结
31、构全部重新设计。原有许多工艺装备都不能继续利用,需重新添置,故投资费用较大。n但由于结构新型且工艺先进,故可提高产品质量和生产率,如产品销路好,则工厂可获较大收益。反之,如销路差,则因开工不足,投资未能及早回收,公司亏损也大。n又如采用改型设计方案,则原有工艺装备基本上都可利用,故投资费用少,因此无论销路好或销路坏,都能获得一定收益而不致亏损。公司根据以往统计资料可得销路好的概率为0.35,销路差的概率为0.65,计划将该产品生产5年,其益损值可以估算如表75所示。抽样信息价值抽样信息价值销路好(1)销路差(2)0.350.65全新设计A145-22.5改型设计A2 184.5益 损状态方案概
32、率P(G/fb)=0.13311.50511.505P(G/fg)=0.589P(B/fg)=0.41145-22.517.2605890411184.512.56全新设计改型设计17.26预测P(fb)=0.525P(B/fb)=0.86745-22.5-13.500.1330.867184.56.306.30全新设计改型设计9.225全新设计P(G)=0.35P(B)=0.6545-22.51.125P(G)=0.35P(B)=0.65184.59.225改型设计不预测-0.5P(fg)=0.475四、效用值理论四、效用值理论n决策准则决策准则可传递性可传递性独立性独立性n期望收益值的缺陷
33、期望收益值的缺陷后果多样性:是多次试验的平均值后果多样性:是多次试验的平均值决策者的价值观决策者的价值观需要一种能表达人们主观价值的衡量指标,并需要一种能表达人们主观价值的衡量指标,并能综合衡量各种定量和定性的后果能综合衡量各种定量和定性的后果这样的指标没有统一的客观尺度,因人而异,这样的指标没有统一的客观尺度,因人而异,视个人的经济、社会和心理条件而定视个人的经济、社会和心理条件而定伯努利期望效用值理论伯努利期望效用值理论n效用值:人们在拥有财富多少不一的条效用值:人们在拥有财富多少不一的条件下,增加同样的财富所感受到的效用件下,增加同样的财富所感受到的效用值是不同的,随财富的增加效用值总是
34、值是不同的,随财富的增加效用值总是在增加,但增长率是递减的在增加,但增长率是递减的n买彩券:买彩券:5 5(500500)元一张,)元一张,0.50.5概率中奖概率中奖得得1010(10001000)元,期望收益值为零;)元,期望收益值为零;n问题:如何遵循理性原则求得效用值?问题:如何遵循理性原则求得效用值?冯诺曼冯诺曼-摩根斯坦期望效用值理论摩根斯坦期望效用值理论n定义了计量效用值,使效用值的计算成定义了计量效用值,使效用值的计算成为现实为现实n在在“伯伯”的基础上提出,针对风险状况的基础上提出,针对风险状况下财富的价值,而下财富的价值,而“伯伯”的是针对确定的是针对确定状况下财富的价值而
35、提出的状况下财富的价值而提出的效用曲线性质分析效用曲线性质分析稳重型效用曲线稳重型效用曲线n稳重型效用曲线:非负,U(0)=0,曲线形状随财富X的增加而趋于扁平,即随着财富的增多,附加财富带来的满足程度逐渐下降,效用曲线性质分析效用曲线性质分析冒险型效用曲线冒险型效用曲线n冒险型效用曲线:曲线为凸(呈碗状)n一些小企业主,创业时(或处于较穷困情况)愿意冒风险,而具有一定规模后又变的稳妥,这种情况下效用曲线为组合曲线效用曲线混合型效用曲线博弈与决策李刚西安交通大学管理学院引子博弈的不确定性n在一次具体的战斗中,一方是否发起进攻,是一个决策。n如果发起进攻,对方肯定有所反应,客观上讲,必然会有一个
36、确定的结果存在,这是确定性的表现。n但是最后的结果如何,取决于对方如何应对,所以在发起进攻时,并不能知道结局是怎样的,这就是不确定性的表现。n如果一方发起进攻后,另一方马上投降,则战斗结束;n如果对方进行反攻,从理论上来讲,结果取决于双方实力以及双方收益的大小。n由此可以看出博弈的广泛存在,在现实生活中做出任何决策时,实际上都受到其他主体决策的影响并对我们做决策产生一定影响,决策的结果除了由我们自己决定外还要受到其他决策主体的影响,这实际上就是一个博弈过程。二、参与者(二、参与者(PLAYERPLAYER)n参与博弈的利益主体叫做参与者。参与博弈的利益主体叫做参与者。英文原意为玩主,英文原意为
37、玩主,也有译成局中人的。在二人博弈中,有两个参与者;也有译成局中人的。在二人博弈中,有两个参与者;在三人博弈中,有三个参与者;在多人博弈中,有多在三人博弈中,有三个参与者;在多人博弈中,有多个参与者。个参与者。三、策略和策略空间n1策略n 在给定条件博弈中,参与者完整的一套行动计划叫做策略。例如我国古代著名的谋略故事“田忌赛马”中,国王的赛马计划是:先出上等马,再出中等马,最后出下等马;田忌的赛马计划是:先出下等马,再出上等马,最后出中等马。这里的赛马计划就是一套完整的行动计划,也就是一个策略。2策略空间n参与者可以选择的策略的全体就组成了策略空间。例如在“田忌赛马”中,共有六种行动方案可供选
38、择:上中下(先出上等马,再出中等马,最后出下等马)、上下中、中上下、中下上、下上中、下中上。决策时田忌可以选择其中任何一个策略,在故事中,因为国王固定选择了上中下,所以田忌选择了下上中,从而赢得了比赛。任何一人策略的改变都将使结果也随之改变,比如国王选择了中下上,而田忌选择了下上中,则国王将赢得比赛。四、报酬函数与报酬矩阵n1报酬函数n 每一个参与博弈的参与者,他的收益依附于各个参与者所出的策略,这种收益与策略的依附关系就构成了报酬函数。也就是说,第i个参与者的收益取决于所有参与者的策略,而不仅仅是自己的策略,表示成数学式子就是:Ri=Ri(S1,S2,Sn)。其中Ri表示第i个参与者的收益,
39、Si(i=1,n)表示第i个参与者所出的策略。2报酬矩阵n参与博弈的多个参与者的报酬可以用一个矩阵或框图表示,这样的矩阵或框图就叫做报酬矩阵。例如有甲乙两个供货商组成一个价格卡特尔,双方都有选择遵守约定价格或者违反约定价格的权利。报酬矩阵如下图所示:乙守约违约 甲守约 8,8 6,10 违约 10,6 7,7 n 矩阵中每组数字中的前一个数字表示甲的收益,后一个数字表示乙的收益。当甲守约时,乙如果守约,收益为8,乙如果违约,收益为10;当甲违约时,乙如果守约,收益为6,乙如果违约,收益为7。所以,当甲守约时,乙会选择违约(108);当甲违约时,乙也会选择违约(76)。反之不管乙如何选择,甲都会
40、选择违约,最终的结果是双方都选择违约。报酬矩阵改变,就会影响到双方的决策。例如双方的报酬矩阵变成下图所示:乙守约违约 甲守约 12,12 2,10 违约 10,2-4,-4n 此时双方可能都选择守约,因为当甲守约时,乙此时双方可能都选择守约,因为当甲守约时,乙会选择守约(会选择守约(12101210);当甲违约时,乙也会选择守约);当甲违约时,乙也会选择守约(2-42-4)。反之不管乙如何选择,甲都会选择守约,)。反之不管乙如何选择,甲都会选择守约,最终的结果是双方都选择守约。最终的结果是双方都选择守约。n 博弈过程参与者的决策行为要受到博弈规则的影响,即博弈规则的变化会改变报酬矩阵中的报酬值
41、。比如在图 8-1中,由于卡特尔中的每一个供货商都追求自身利益的最大化,并且没有措施来保证遵守价格约定,表面上可能都信誓旦旦的承诺守约,但是实际中双方会违约。n 如果卡特尔追求整体利益的最大化,并且由于历史、政治、制度、惩罚等措施来保证遵守价格约定,双方就可能和平共处,遵守价格约定。在历次中东战争中,由于民族宗教原因,OPEC石油的产量和价格都得到了严格的执行。五、均衡及博弈的解n当博弈的所有参与者都不想改换策略时所达到的稳定状态叫做均衡,均衡的结果叫做博弈的解。n 比如图8-1中甲乙两个供货商组成的卡特尔。不管甲如何选择,乙必然选择违约,同样不论乙如何选择,甲必然选择违约。最终双方都选择了违
42、约,并且只要给定的条件不变,双方就都不会改变策略,结果非常稳定,达成均衡。n 在这个均衡中,不管甲如何选择,乙都不会改变策略,同样无论乙如何选择,甲也不会改变策略,这种均衡就叫做占优均衡。这种无论对方如何决策,自己总是会选择的策略叫做占优策略,由双方的占优策略所达成的均衡叫做占优均衡。n 再比如,在学校中,学生平时学习可能是非常努力也可能是非常懒散;老师可能把考试题出的很难,也可能出的很容易。从博弈论的角度,这里的老师和学生就构成了一个博弈,双方的报酬矩阵如下:老师出考题难 易学生 学习 努力 90,85 100,90 懒散 50,60 90,70 n 由于老师出难题比出容易题要花费更多的时间
43、和精力,所以收益较低,从而无论学生平时努力程度如何,老师一定选择出容易的题;由于学生只要努力学习就会取得更好的成绩,所以无论老师所出考题难度如何,学生一定会选择努力学习,这同样构成一个占优均衡。n 经常遇到的还有一种均衡,是有条件的均衡,叫做纳什均衡。简单的说就是敌变我变、敌不变我亦不变。在后面第二节中将详细介绍纳什均衡。六、囚犯两难困境n 囚犯两难困境是博弈论中一个著名的例子,讲的是甲乙两名嫌疑犯作案后被警察抓住,分别被关在不同的屋子里受审,双方不能互通消息,每名嫌疑犯都面临坦白和不坦白两种选择。警察告诉他们:在两人都坦白的情况下,各判刑10年;在两人都不坦白的情况下,各判刑3年;在一人坦白
44、另一人不坦白的情况下,坦白的一方会被从轻处罚,只被判刑1年,不坦白的一方则被重判15年。可以根据坦白后是否会受到制裁两种情况来讨论最终的均衡结果。1 1、坦白后不会受到制裁时的情况、坦白后不会受到制裁时的情况 此时,双方收益矩阵如下:此时,双方收益矩阵如下:乙不坦白坦白甲不坦白-3,-3 -15,-1 坦白-1,-15-10,-10 图8-4n 如图,在乙不坦白的情况下,如果甲坦白,甲会被从轻处罚,只被判刑1年,乙被重判15年;如果甲也不坦白,由于证据不足,甲乙都只会被判刑3年。n 在乙坦白的情况下,如果甲也坦白,甲乙会被判刑10年;如果甲不坦白,乙会被从轻处罚,只被判刑1年,甲则被重判15年
45、。n 可见,在乙不坦白的情况下,甲最好是坦白,从而可以被从轻处罚;在乙坦白的情况下,因为被判刑10年总比15年要好,甲最好也是坦白,所以甲会选择坦白。n 同理,无论甲如何选择,乙的最好选择也是坦白。结果双方都选择坦白,都被判刑10年。可见,我国公安机关”坦白从宽,抗拒从严“的心理攻势在大多数情况下都是可以奏效的。囚犯两难困境说明个人的理性可能导致集体结果的不妙。在现实社会中,人人都追求完美反而可能会导致社会变得很糟糕。n 2.坦白后会受到制裁时的情况n 博弈论的一个重要思想就是规则改变报酬矩阵,改变了报酬矩阵就会影响到行为方式。如果犯罪组织有着严格的惩罚制度,任何一个罪犯坦白后,不论坦白的事情
46、严重与否,犯罪组织一定会杀人灭口,并且总是能迅速做到。这个规则将改变报酬矩阵,新的报酬矩阵如下图所示:乙不坦白坦白甲不坦白 -3,-3-15,-坦白-,-15 -,-n 由由于于坦坦白白后后将将被被灭灭口口,所所以以收收益益将将是是-。在在乙乙不不坦坦白白的的情情况况下下,甲甲最最好好是是不不坦坦白白;在在乙乙坦坦白白的的情情况况下下,因因为为被被判判刑刑1515年年总总比比死死去去要要好好,甲甲最最好好也也是是不不坦坦白白,所所以以甲甲会会选选择择不不坦坦白白。同同理理,无无论论甲甲如如何何选选择择,乙乙的的最最好好选选择择也也是是不不坦坦白白。结结果果双双方方都都选选择择不不坦坦白白,各自
47、被判刑各自被判刑3 3年。年。智猪博弈有一头大猪和一头小猪住在同一个猪圈里,猪有一头大猪和一头小猪住在同一个猪圈里,猪圈的一侧放者猪食槽,另一侧安装着一个控制圈的一侧放者猪食槽,另一侧安装着一个控制食物供应的按钮。按一次按钮,有食物供应的按钮。按一次按钮,有8个单位的个单位的食物进槽,但需承担食物进槽,但需承担2个单位的成本。偌大猪个单位的成本。偌大猪小猪同时到达猪食槽,大猪吃到小猪同时到达猪食槽,大猪吃到5个单位的食个单位的食物,小猪吃到物,小猪吃到3个单位的食物;若大猪先到,个单位的食物;若大猪先到,大猪吃大猪吃7个单位的食物,小猪只能吃到个单位的食物,小猪只能吃到1个单个单位;若小猪先到
48、,小猪吃到位;若小猪先到,小猪吃到4个单位食物,大个单位食物,大猪也吃到猪也吃到4个单位食物。个单位食物。智猪博弈(智猪博弈(boxedpigsgame)小猪小猪去按去按等待等待去按去按3,12,4大猪大猪等待等待7,-10,0大猪的收益外部化,小猪不劳而获,免费搭了大猪的收益外部化,小猪不劳而获,免费搭了大猪的便车。大猪的便车。众里寻他千百度n约会游戏:假定你是位女性,决定要结婚,你身边交际圈里有100位合适的单身男子都有意追求你,你的任务是,从他们中挑选一位作为结婚对象。你会怎样做呢?n严格要求:每个人你只能约会一次,而且只能当场决定选择还是放弃,不能把他们“冷冻”起来作为后备,一旦你选择
49、了其中一个,你就没有机会再约会别人了。n如果你的动机是找到最好的那个人,现实是没有一个策略可以保证实现这个目标。n一个办法是:将第一组人(比如先取10名)作为试验品,就像在糖果店试吃品一样,之后如果遇到比这组更好的对象,就可以考虑嫁给他。n损失惨重的两种情形:1.前10名刚好是全部里面最糟的,碰巧下一个又是倒数11名;2.最好的选择恰好已经在前10名当中,导致你设了一个永远无法达到的标准,最后只好在所有机会都出现后选择第100个。两难选择n抽样从10改为30或40如何?n如果你抽去的样本太少,你得出的结论可能并不准确;可是如果你取样太多,结论倒是准确了,可是又很可能错失最佳选择(他正好在取样里
50、,被牺牲掉了)。n有没有最佳样本数的存在?n苏格拉底的答案:1/3分出大中小三类,1/3验证是否正确,1/3选择属于大类中的一个。小鸡博弈(小鸡博弈(thegameofchicken)设想汤姆和吉米是两个顽皮的小孩,他们在小设想汤姆和吉米是两个顽皮的小孩,他们在小伙伴的鼓动下要进行一场关于勇气的比赛:两伙伴的鼓动下要进行一场关于勇气的比赛:两人分别从一条独木桥的两端冲向对方,谁退却人分别从一条独木桥的两端冲向对方,谁退却谁就是谁就是“小鸡小鸡”。显然,如果两个人都向前冲,。显然,如果两个人都向前冲,则两败俱伤,设支付水平为则两败俱伤,设支付水平为-2;如果一个勇进;如果一个勇进而另一个退却,则