收藏 分销(赏)

对策模型.ppt

上传人:精**** 文档编号:1674330 上传时间:2024-05-07 格式:PPT 页数:50 大小:891.01KB
下载 相关 举报
对策模型.ppt_第1页
第1页 / 共50页
对策模型.ppt_第2页
第2页 / 共50页
对策模型.ppt_第3页
第3页 / 共50页
对策模型.ppt_第4页
第4页 / 共50页
对策模型.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、对策模型对策模型 对策与决策是人们在日常生活和工作中经常会遇到的择对策与决策是人们在日常生活和工作中经常会遇到的择优活动。人们在处理一个问题时,往往会面临几种情况,同优活动。人们在处理一个问题时,往往会面临几种情况,同时又存在几种可行方案可供选择,要求根据自己的行动目的时又存在几种可行方案可供选择,要求根据自己的行动目的选定一种方案,以期获得最佳的结果。选定一种方案,以期获得最佳的结果。有时,人们面临的问题具有竞争性质,如商业上的竞争、有时,人们面临的问题具有竞争性质,如商业上的竞争、体育中的比赛和军事行动、政治派别的斗争等等。这时竞争体育中的比赛和军事行动、政治派别的斗争等等。这时竞争双方或

2、各方都要发挥自己的优势,使己方获得最好结果。因双方或各方都要发挥自己的优势,使己方获得最好结果。因而而双方或各方都要根据不同情况、不同对手做出自己的决择,双方或各方都要根据不同情况、不同对手做出自己的决择,此时的决策称为此时的决策称为对策对策。在有些情况下,我们面临的并非竞争对手而是可能出现的在有些情况下,我们面临的并非竞争对手而是可能出现的多种情况,我们不知道究竟哪一种情况会发生,但希望我们多种情况,我们不知道究竟哪一种情况会发生,但希望我们的决策能获得最好的结果,此时,我们面临的问题被称为的决策能获得最好的结果,此时,我们面临的问题被称为决决策问题策问题。不过,如果我们把可能出现的若干种情

3、况也看作是。不过,如果我们把可能出现的若干种情况也看作是竞争对手可采取的几种策略,那么也可以把决策问题当作对竞争对手可采取的几种策略,那么也可以把决策问题当作对策问题来求解。策问题来求解。决策:决策:是人类活动的基本组成部分之一,几乎任何工作都离不开决策。凡是根据预定的目标做出的任何行动决定,都可称之为决策。决策问题:决策问题:对于一个需要处理的事件,面临几种客观条件,又有几种方案可供选择,这就构成一个决策问题。决策模型决策模型l确定型决策问题确定型决策问题l随机型决策问题随机型决策问题l复杂过程的决策问题复杂过程的决策问题决策问题的类型决策问题的类型确定型决策问题:确定型决策问题:决策者确切

4、地知道将发生什么样的自然状态,从而可以在既定的自然状态下选择最佳方案的一类决策问题。方法:方法:穷举法,规划方法(如线性规划,动态规划等)随机型决策问题:随机型决策问题:决策者所面临的的各种自然状态是随机出现的一类决策问题。方法:方法:风险型决策,非确定型决策 复杂系统的决策问题:复杂系统的决策问题:同时受主观与客观因素影响的决策问题。方法:方法:层次分析法风险型决策风险型决策最大可能法,期望值决策法,树型决策法,效用分析法等。非确定型决策非确定型决策乐观法,悲观法,折衷法,等可能性法,后悔值法。对策论对策论(game theory)又称博弈论,运筹学的一个分支,是关于两个或多个局中的人按一定

5、规则处于竞争状态下的决策行为的数学理论。对策论起源于关于室内游戏(象棋、扑克等)局中人的行为与得失的研究。产生于上世纪三十年代。对策模型对策模型 1921年法国的包瑞尔首先做出对策论的研究。美籍数学家冯诺伊曼在1928年提出的“最大最最大最小原则小原则”奠定了对策论的理论基础,特别是在1944年发表的对策论与经济行为一书,引起了广泛的注意,对策论也由最初对于桥牌、棋艺的研究转到对经济、军事、心理等领域的广泛应用。现在,对策论与线性规划、统计判决、管理科学、运筹学和军事计划等领域都有着密切关系。对策论也是安全管理学的理论基础。现代化生产中的安全问题是极复杂的问题,运用对策论解决这些复杂的问题,提

6、出新模型具有重要意义。对策问题对策问题 对策问题的特征是参与者为利益相互冲突的各方,其结局对策问题的特征是参与者为利益相互冲突的各方,其结局不取决于其中任意一方的努力而是各方所采取的策略的综合不取决于其中任意一方的努力而是各方所采取的策略的综合结果。结果。先考察几个实际例子。先考察几个实际例子。例例1 (田忌赛马)(田忌赛马)田忌赛马是大多数人都熟知的故事,传说战国时期齐王田忌赛马是大多数人都熟知的故事,传说战国时期齐王欲与大将田忌赛马,双方约定每人挑选上、中、下三个等级欲与大将田忌赛马,双方约定每人挑选上、中、下三个等级的马各一匹进行比赛,每局赌金为一千金。齐王同等级的马的马各一匹进行比赛,

7、每局赌金为一千金。齐王同等级的马均比田忌的马略胜一筹,似乎必胜无疑。田忌的朋友孙膑给均比田忌的马略胜一筹,似乎必胜无疑。田忌的朋友孙膑给他出了一个主意,让他用下等马比齐王的上等马,上等马对他出了一个主意,让他用下等马比齐王的上等马,上等马对齐王的中等马,中等马对齐王的下等马,结果田忌二胜一败,齐王的中等马,中等马对齐王的下等马,结果田忌二胜一败,反而赢了一千金。反而赢了一千金。田忌赛马田忌赛马第一次赛马第一次赛马田田 忌忌齐威王齐威王上上 中中 下下上上 中中 下下 败败胜胜田忌赛马田忌赛马第二次赛马第二次赛马田田 忌忌齐威王齐威王上上 中中 下下上上 中中 下下败败胜胜例例2 (石头(石头剪

8、子剪子布)布)这这是一个大多数人小是一个大多数人小时时候都玩候都玩过过的游的游戏戏。游。游戏戏双方只能双方只能选选石石头头、剪子、布中的一种,石、剪子、布中的一种,石头赢头赢剪子,剪子剪子,剪子赢赢布,而布又布,而布又赢赢石石头头,赢赢者得一分,者得一分,输输者失一分,双方相同者失一分,双方相同时时不得分,不得分,见见下表。下表。表表 1 1石石头头剪子剪子布布石石头头 0 11剪子剪子1 0 1布布 11 0例例3 (囚犯的困惑)(囚犯的困惑)警察同警察同时时逮捕了两人并分开关押,逮捕的原因是他逮捕了两人并分开关押,逮捕的原因是他们们持有大持有大量量伪币伪币,警方,警方怀怀疑他疑他们伪们伪造

9、造钱币钱币,但没有找到充分,但没有找到充分证证据,希据,希望他望他们们能自己供能自己供认认,这这两个人都知道:如果他两个人都知道:如果他们们双方都不供双方都不供认认,将被以使用和持有大量,将被以使用和持有大量伪币伪币罪被各判刑罪被各判刑1818个月;如果双个月;如果双方都供方都供认伪认伪造了造了钱币钱币,将各被判刑,将各被判刑3 3年;如果一方供年;如果一方供认认另一方另一方不供不供认认,则则供供认认方将被从方将被从宽处宽处理而免刑,但另一方面将被判理而免刑,但另一方面将被判刑刑7 7年。将嫌疑犯年。将嫌疑犯A A、B B被判刑的几种可能情况列表如下被判刑的几种可能情况列表如下:表表 2 2嫌

10、疑犯嫌疑犯B供供认认不供不供认认嫌疑犯嫌疑犯A供供认认不供不供认认(3,3)(0,7)(7,0)(1.5,1.5)表中每对数字表示嫌疑犯表中每对数字表示嫌疑犯A A、B B被判刑的年数。如果两名疑犯均担心对方被判刑的年数。如果两名疑犯均担心对方供认并希望受到最轻的惩罚,最保险的办法自然是承认制造了伪币。供认并希望受到最轻的惩罚,最保险的办法自然是承认制造了伪币。尽管此例本身不完全符合现代的法律精神,但是这个例子的创造部分地奠定了非合作对策的理论基础,并且它可以作为实际生活中许多现象的一个抽象概括。几乎没有一本涉及对策(博弈)论的书不举到这个例子,尽管表示有所不同。一、对策的基本要素一、对策的基

11、本要素(1 1)局中人局中人 参加决策的各方被称为决策问题的局中人,参加决策的各方被称为决策问题的局中人,一个决策总是可以包含两名局中人(如棋类比赛、人与大一个决策总是可以包含两名局中人(如棋类比赛、人与大自然作斗争等),也可以包含多于两名局中人(如大多数自然作斗争等),也可以包含多于两名局中人(如大多数商业中的竞争、政治派别间的斗争)。商业中的竞争、政治派别间的斗争)。局中人必须要拥有局中人必须要拥有可供其选择并影响最终结局的策略可供其选择并影响最终结局的策略.在例在例3 3中,局中人是中,局中人是A A、B B两名疑犯,警方不是局中人。两名疑犯,警方不是局中人。两名疑犯最终如何判刑取决于他

12、们各自采取的态度,警方两名疑犯最终如何判刑取决于他们各自采取的态度,警方不能为他们做出选择。不能为他们做出选择。从这些简单实例中可以看出对策现象从这些简单实例中可以看出对策现象中包含的几个基本要素。中包含的几个基本要素。(2 2)策略集合策略集合 局中人能采取的可行方案称为策略,每一局局中人能采取的可行方案称为策略,每一局中人可采取的全部策略称为此局中人的中人可采取的全部策略称为此局中人的策略集合策略集合。对策问题。对策问题中,对应于每一局中人存在着一个策略集合,而每一策略集中,对应于每一局中人存在着一个策略集合,而每一策略集合中至少要有两个策略,否则该局中人可从此对策问题中删合中至少要有两个

13、策略,否则该局中人可从此对策问题中删去,因为对他来讲,不存在选择策略的余地。去,因为对他来讲,不存在选择策略的余地。应当注意的是,所谓策略是指在整个竞争过程中对付他应当注意的是,所谓策略是指在整个竞争过程中对付他方的方的完整方法完整方法,并非指竞争过程中某步所采取的具体局部办,并非指竞争过程中某步所采取的具体局部办法。例如下棋中的某步只能看成其完整策略的组成部分,而法。例如下棋中的某步只能看成其完整策略的组成部分,而不能看成一个完整的策略。当然,有时可将它看成一个多阶不能看成一个完整的策略。当然,有时可将它看成一个多阶段对策中的子对策。段对策中的子对策。策略集合可以是有限集也可以是无限集。策略

14、集为有限策略集合可以是有限集也可以是无限集。策略集为有限集时称为有限对策,否则称为无限对策。集时称为有限对策,否则称为无限对策。记局中人记局中人i i的策略集合为的策略集合为SiSi。当对策问题各方都从各自的。当对策问题各方都从各自的策略集合中选定了一个策略后,各方采取的策略全体可用一策略集合中选定了一个策略后,各方采取的策略全体可用一矢量矢量S S表示,称之为一个纯局势(简称局势)。表示,称之为一个纯局势(简称局势)。例如例如,若一,若一对对策中包含策中包含A、B两名局中人,其策略集合分两名局中人,其策略集合分别为别为SA=1,m,SB=1,n。若。若A选择选择策略策略 i而而B选选策策略略

15、 j,则则(i,j)就构成此)就构成此对对策的一个策的一个纯纯局局势势。显显然,然,SA与与SB一共可构成一共可构成mn个个纯纯局局势势,它,它们们构成表构成表3。对对策策问题问题的全体的全体纯纯局局势势构成的集合构成的集合S称称为为此此对对策策问题问题的的局局势势集合集合。(m,n)(m,j)(m,2)(m,1)m(i,n)(i,j)(i,2)(i,1)i(2,n)(2,j)(2,2)(2,1)2(1,n)(1,j)(1,2)(1,1)1A的的策策略略nj21B的策略的策略表表 3(3 3)赢赢得函数得函数(或称支付函数)(或称支付函数)对对策的策的结结果用矢量表示,果用矢量表示,称之称之为

16、赢为赢得函数。得函数。赢赢得函数得函数F F为为定定义义在局在局势势集合集合S S上的矢上的矢值值函函数,数,对对于于S S中的每一中的每一纯纯局局势势s s,F F(s s)指出了每一局中人在此)指出了每一局中人在此对对策策结结果下果下应赢应赢得(或支付)的得(或支付)的值值。记记局中人集合局中人集合为为I I=1,1,k k,对对每一每一i iI I,有一策略集合,有一策略集合S Si i,当,当I I中每一局中人中每一局中人i i选选定策略后得一个局定策略后得一个局势势s s;将;将s s代入代入赢赢得函数得函数F F,即得一矢量,即得一矢量F F(s s)=()=(F F1 1(s s

17、),),F Fk k(s s),其中,其中F Fi i(s s)为为在局在局势势s s下局中人下局中人i i的的赢赢得(或支付)。得(或支付)。综上所述,综上所述,一个对策模型由一个对策模型由局中人、策略集合和赢得函数局中人、策略集合和赢得函数三三部分组成部分组成。此处讨论只有两名局中人的对策问题,即两人对策,其结果此处讨论只有两名局中人的对策问题,即两人对策,其结果可以推广到一般的对策模型中去。对于只有两名局中人的对策可以推广到一般的对策模型中去。对于只有两名局中人的对策问题,其局势集合和赢得函数均可用表格表示。例如,表问题,其局势集合和赢得函数均可用表格表示。例如,表2 2就给就给出了例出

18、了例3 3的局势集合和赢得函数。的局势集合和赢得函数。例例3 (囚犯的困惑)(囚犯的困惑)警察同警察同时时逮捕了两人并分开关押,逮捕的原因是他逮捕了两人并分开关押,逮捕的原因是他们们持有大持有大量量伪币伪币,警方,警方怀怀疑他疑他们伪们伪造造钱币钱币,但没有找到充分,但没有找到充分证证据,希据,希望他望他们们能自己供能自己供认认,这这两个人都知道:如果他两个人都知道:如果他们们双方都不供双方都不供认认,将被以使用和持有大量,将被以使用和持有大量伪币伪币罪被各判刑罪被各判刑1818个月;如果双个月;如果双方都供方都供认伪认伪造了造了钱币钱币,将各被判刑,将各被判刑3 3年;如果一方供年;如果一方

19、供认认另一方另一方不供不供认认,则则供供认认方将被从方将被从宽处宽处理而免刑,但另一方面将被判理而免刑,但另一方面将被判刑刑7 7年。将嫌疑犯年。将嫌疑犯A A、B B被判刑的几种可能情况列表如下被判刑的几种可能情况列表如下:表表 2 2嫌疑犯嫌疑犯B供供认认不供不供认认嫌疑犯嫌疑犯A供供认认不供不供认认(3,3)(0,7)(7,0)(1.5,1.5)表中每对数字表示嫌疑犯表中每对数字表示嫌疑犯A A、B B被判刑的年数。如果两名疑犯均担心对方被判刑的年数。如果两名疑犯均担心对方供认并希望受到最轻的惩罚,最保险的办法自然是承认制造了伪币。供认并希望受到最轻的惩罚,最保险的办法自然是承认制造了伪

20、币。二、二、对策问题的分类对策问题的分类分类原则分类原则类型类型与时间有无关系与时间有无关系静态对策动态对策局中人的个数局中人的个数二人对策多人对策策略集中的策略策略集中的策略有限还是无限有限还是无限有限对策无限对策二人对策中双方二人对策中双方的赢得之和是否的赢得之和是否为零为零零和对策(矩阵对策)非零和对策局中人之间是否局中人之间是否允许合作允许合作合作对策非合作对策三、零和对策三、零和对策 存在一存在一类类特殊的特殊的对对策策问题问题。在。在这类对这类对策中,当策中,当纯纯局局势势确定确定后,后,A A之所得恰之所得恰为为B B之所失,或者之所失,或者A A之所失恰之所失恰为为B B之所得

21、,即双方之所得,即双方所得之和所得之和总为总为零。在零和零。在零和对对策中,因策中,因F F1 1(s s)=)=F F2 2(s s),只需指出,只需指出其中一人的其中一人的赢赢得得值值即可,故即可,故赢赢得函数可用得函数可用赢赢得矩得矩阵阵表示。例如表示。例如若若A A有有m m种策略,种策略,B B有有n n种策略,种策略,赢赢得矩得矩阵阵 表示若表示若A A选取策略选取策略i i而而B B选取策略选取策略j j,则,则A A之所得为之所得为a aijij(当(当a aijij00时为支付)。时为支付)。B B之所失为之所失为aij(当(当aij0时为赢得)。时为赢得)。在表在表4 4中

22、,无中,无论论A A、B B怎怎样选样选取策略,双方取策略,双方赢赢得得总总和均和均为为1010,此,此时时,若将各人若将各人赢赢得数减去两人的平均得数减去两人的平均赢赢得数,即可将得数,即可将赢赢得表化得表化为为零和零和赢赢得表得表。表。表4 4中的中的对对策在策在转转化化为为零和零和对对策后,具有策后,具有赢赢得得矩矩阵阵表表 4 4局中人局中人B123局中人局中人A1(8,2)(1,9)(7,3)2(4,6)(9,1)(3,7)3(2,8)(6,4)(8,2)4(6,4)(4,6)(6,4)在有些两人在有些两人对对策的策的赢赢得表中,得表中,A A之所得并非明之所得并非明显为显为B B之

23、所失,之所失,但双方但双方赢赢得数之和得数之和为为一常数。例如一常数。例如给定一个两人对策只需给出局中人给定一个两人对策只需给出局中人A A、B B的策略集合的策略集合S SA A、S SB B及表示双方赢得值的赢得矩阵及表示双方赢得值的赢得矩阵R R。综上所述,当遇到零和对。综上所述,当遇到零和对策或可转化为零和对策的问题时,策或可转化为零和对策的问题时,R R可用通常意义下的矩阵可用通常意义下的矩阵表示,否则表示,否则R R的元素为一两维矢量。的元素为一两维矢量。故两人对策故两人对策G G又可称为矩阵对策,并可简记成又可称为矩阵对策,并可简记成G G=S SA A,S SB B,R R (

24、1)例例4 给定给定G=SA,SB,R,其中其中SA=1,2,3,SB=1,2,3,4 从从R R中可以看出,若中可以看出,若A A希望获得最大赢利希望获得最大赢利3030,需采取策略,需采取策略 1 1,但此时若,但此时若B B采采取策略取策略 4 4,A A非但得不到非但得不到3030,反而会失去,反而会失去2222。为了稳妥,双方都应考虑到。为了稳妥,双方都应考虑到对方有使自己损失最大的动机,对方有使自己损失最大的动机,在最坏的可能中争取最好的结果在最坏的可能中争取最好的结果。局中人。局中人A A采取策略采取策略 1 1、2 2、3 3时,最坏的赢得结果分别为时,最坏的赢得结果分别为mi

25、n 12,6,30,22 =22min 14,2,18,10=2min 6,0,10,16=10其中最好的可能为其中最好的可能为max max 22,2,22,2,10=210=2。如果如果A A采取策略采取策略 2 2,无论,无论B B采采取什么策略,取什么策略,A A的赢得均不会少于的赢得均不会少于2.2.B B采取各方案的最大损失为采取各方案的最大损失为max 12,14,max 12,14,6=146=14,max max 6,2,0=26,2,0=2,max max 30,18,30,18,10=3010=30和和max max 22,10,16=1622,10,16=16。当。当B

26、 B采取策略采取策略 2 2时,其损失时,其损失不会超过不会超过2 2。注意到在赢得矩阵中,。注意到在赢得矩阵中,2 2既是所在行中的最小元素又是所在列既是所在行中的最小元素又是所在列中的最大元素。此时,只要对方不改变策略,任一局中人都不可能通过变中的最大元素。此时,只要对方不改变策略,任一局中人都不可能通过变换策略来增大赢得或减小损失,称这样的局势为对策的一个换策略来增大赢得或减小损失,称这样的局势为对策的一个稳定点或稳定稳定点或稳定解解,(注:也被称为鞍点),(注:也被称为鞍点)定义定义1 对于两人对策对于两人对策G=SA,SB,R,若有,若有 则称则称G具有稳定解,并称具有稳定解,并称V

27、G为对策为对策G的值。若纯局势(的值。若纯局势()使得)使得,则称(,则称()为)为对策对策G的鞍点或稳定解的鞍点或稳定解,赢得矩阵中与(,赢得矩阵中与()相)相对应的元素对应的元素 称为称为赢得矩阵的鞍点赢得矩阵的鞍点,与与 分别称为局中人分别称为局中人A与与B的最的最优策略。优策略。对对(1 1)式中的)式中的赢赢得矩得矩阵阵,容易,容易发现发现不存在具有上述性不存在具有上述性质质的鞍点。的鞍点。给给定一个定一个对对策策G G,如何判断它是否具有鞍点呢?,如何判断它是否具有鞍点呢?为为了回答了回答这这一一问题问题,先引入,先引入下面的下面的极大极小原理极大极小原理。定理定理1 1 设设G=

28、SA,SB,R,记记 ,则则必有必有+0证明:,易见易见为为A的最小赢得,的最小赢得,为为B的最小赢得,的最小赢得,由于由于G是零和对策,故是零和对策,故+0必成立。必成立。定理定理2 2 零和零和对对策策G G具有具有稳稳定解的充要条件定解的充要条件为为+=0=0。证明:(充分性)(充分性)由由和和的定的定义义可知,存在一行(例如可知,存在一行(例如p p行)行)为为p p行中的最小元素且存在一列(例如行中的最小元素且存在一列(例如q q列),列),为为q q列中的列中的最大元素。故有最大元素。故有 a apqpq且且a apqpq又因又因+=0=0,所以,所以=,从而得出,从而得出a ap

29、qpq=,a apqpq为赢为赢得矩得矩阵阵的鞍点,(的鞍点,(p p,q q)为为G G的的稳稳定解。定解。(必要性)(必要性)若若G G具有具有稳稳定解(定解(p p,q q),),则则a apqpq为赢为赢得矩得矩阵阵的鞍点。故有的鞍点。故有 从而可得从而可得+0+0,但根据定理,但根据定理1 1,+0+0必成立,故必有必成立,故必有+=0=0。上述定理上述定理给给出了出了对对策策问题问题有有稳稳定解(定解(简简称称为为解)的充要条件。当解)的充要条件。当对对策策问问题题有解有解时时,其解可以不唯一。例如,若,其解可以不唯一。例如,若 则则易易见见,(,(2,2),(),(2,4),()

30、,(4,2),(),(4,4)均)均为为此此对对策策问题问题的解。的解。一般又可以一般又可以证证明。明。定理定理3 3 对对策策问题问题的解具有下列性的解具有下列性质质:(1)无差)无差别别性。若(性。若(,)与()与(,)同)同为对为对策策G的解,的解,则则必有必有 。(2 2)可交)可交换换性。若(性。若(,j1j1)、()、(,j2j2)均)均为对为对策策G G的解,的解,则则(,j2j2)和()和(,j1j1)也必)也必为为G G的解。的解。定理定理3的证明非常容易,作为习题留的证明非常容易,作为习题留给读者自己去完成。给读者自己去完成。具有具有稳稳定解的零和定解的零和对对策策问题问题

31、是一是一类类特特别简单别简单的的对对策策问题问题,它所,它所对应对应的的赢赢得矩得矩阵阵存在鞍点,任一局中人都不可能通存在鞍点,任一局中人都不可能通过过自己自己单单方面的努力来改方面的努力来改进结进结果。然而,在果。然而,在实际实际遇到的零和遇到的零和对对策中更典型的是策中更典型的是+0的情况。由于的情况。由于赢赢得矩得矩阵阵中不存在鞍点,至少存在一名局中人,在他中不存在鞍点,至少存在一名局中人,在他单单方面改方面改变变策略的策略的情况下,有可能改善自己的收益。例如,考察(情况下,有可能改善自己的收益。例如,考察(1)中的)中的赢赢得矩得矩阵阵R。若若双方都采取保守的双方都采取保守的max m

32、in原原则则,将会出,将会出现纯现纯局局势势(4,1)或)或(4,3)。但如果局中人)。但如果局中人A适当改适当改换换策略,他可以增加收入。例如,如策略,他可以增加收入。例如,如果果B采用策略采用策略 1,而,而A改改换换策略策略 1,则则A可收益可收益 3。但此。但此时时若若B改改换换策略策略 2,又会使,又会使A输输掉掉4,。此。此时时,在只使用,在只使用纯纯策略的范策略的范围围内,内,对对策策问题问题无解。无解。这类这类决策如果只决策如果只进进行一次,局中人除了碰运气以外行一次,局中人除了碰运气以外别别无无办办法。但法。但如果如果这类这类决策要反复决策要反复进进行多次,行多次,则则局中人

33、固定采用一种策略局中人固定采用一种策略显显然是不明然是不明智的,因智的,因为为一旦一旦对对手看出你会采用什么策略,他将会手看出你会采用什么策略,他将会选选用用对对自己最自己最为为有有利的策略。利的策略。这时这时,局中人均,局中人均应应根据某种概率来根据某种概率来选选用各种策略用各种策略,即采用,即采用混混合策略合策略的的办办法,使自己的期望收益尽可能大。法,使自己的期望收益尽可能大。(1)设设A方用概率方用概率xi选选用策略用策略 i,B方用概率方用概率yj选选用策略用策略 j,且双方每次且双方每次选选用什么策略是随机的,不能用什么策略是随机的,不能让对让对方看出方看出规规律,律,记记X=(x

34、1,xm)T,Y=(y1,yn)T,则则A的期望的期望赢赢得得为为E(X,Y)=XTRY=其中,其中,R为为A方的赢得矩阵方的赢得矩阵。记记 SA策略策略1,mSB策略策略1,n概率概率x1,xm概率概率y1,yn分分别别称称SA与与SB为为A方和方和B方的混合策略。方的混合策略。对对于需要使用混合策略的于需要使用混合策略的对对策策问题问题,也有具有,也有具有稳稳定解的定解的对对策策问题问题的的类类似似结结果。果。定定义义2 若存在若存在m维维概率向量概率向量 和和n维维概率向量概率向量 ,使得,使得对对一切一切m维维概率向量概率向量X和和n维维概率向量概率向量Y有有则则称(称(,)为为混合策

35、略混合策略对对策策问题问题的鞍点。的鞍点。定理定理4 (Von Neumann)任意混合策略)任意混合策略对对策策问题问题必存在鞍点,即必存在概率向必存在鞍点,即必存在概率向量量 和和 ,使得:,使得:使用使用纯纯策略的策略的对对策策问题问题(具有(具有稳稳定解的定解的对对策策问题问题)可以看成使用混合策略的)可以看成使用混合策略的对对策策问题问题的特殊情况,相当于以概率的特殊情况,相当于以概率1选选取其中某一策略,以概率取其中某一策略,以概率0选选取其余策略。取其余策略。对对于双方均只有两种策略的于双方均只有两种策略的对对策策问题问题(即(即22对对策),可按几何方法求解。策),可按几何方法

36、求解。例例5 5 A A、B B为作战双方,为作战双方,A A方拟派两架轰炸机方拟派两架轰炸机I I和和IIII去轰炸去轰炸B B方的指挥部,方的指挥部,轰炸机轰炸机I I在前面飞行,在前面飞行,IIII随后。两架轰炸机中只有一架带有炸弹,而另随后。两架轰炸机中只有一架带有炸弹,而另一架仅为护航。轰炸机飞至一架仅为护航。轰炸机飞至B B方上空,受到方上空,受到B B方战斗机的阻击。若战斗机方战斗机的阻击。若战斗机阻击后面的轰炸机阻击后面的轰炸机IIII,它仅受,它仅受IIII的射击,被击中的概率为的射击,被击中的概率为0.30.3(I I来不及来不及返回击它)。若战斗机阻击返回击它)。若战斗机

37、阻击I I,它将同时受到两架轰炸机的射击,被击,它将同时受到两架轰炸机的射击,被击中的概率为中的概率为0.70.7。一旦战斗机未被击落,它将以。一旦战斗机未被击落,它将以0.60.6的概率击毁其选中的的概率击毁其选中的轰炸机。请为轰炸机。请为A A、B B双方各选择一个最优策略,即:对于双方各选择一个最优策略,即:对于A A方应选择哪一方应选择哪一架轰炸机装载炸弹?对于架轰炸机装载炸弹?对于B B方战斗机应阻击哪一架轰炸机?方战斗机应阻击哪一架轰炸机?解:解:双方可双方可选择选择的策略集分的策略集分别为别为SA=1,2,1:轰轰炸机炸机 I 装炸装炸弹弹,II 护护航航 2:轰轰炸机炸机 II

38、 装炸装炸弹弹,I 护护航航SB=1,2,1:阻:阻击轰击轰炸机炸机 I 2:阻:阻击轰击轰炸机炸机 II赢赢得矩得矩阵阵R=(aij)22,aij为为A方采取策略方采取策略 i而而B方采取策略方采取策略 j 时时,轰轰炸炸机机轰轰炸炸B方指方指挥挥部的概率,由部的概率,由题题意可意可计计算出:算出:a11=0.7+0.3(10.6)=0.82a12=1,a21=1a22=0.3+0.7(10.6)=0.58即即易求得易求得 ,。由于由于+0,矩矩阵阵R不存在鞍点,不存在鞍点,应应当当求最佳混合策略求最佳混合策略。现设现设A以概率以概率x1取策略取策略 1、概率、概率x2取策略取策略 2;B以

39、概率以概率y1取策略取策略 1、概率、概率y2取策略取策略 2。先从先从B方来考方来考虑问题虑问题。B采用采用 1时时,A方方轰轰炸机攻炸机攻击击指指挥挥部的概率的期部的概率的期望望值为值为E(1)=0.82x1+x2,而,而B采用采用2时时,A方方轰轰炸机攻炸机攻击击指指挥挥部的概部的概率的期望率的期望值为值为E(2)=x1+0.58x2。若。若E(1)E(2),不妨),不妨设设E(1)2且且n2时时,采用几何方法求解就,采用几何方法求解就变变得相当麻得相当麻烦烦,此此时时通常采用通常采用线线性性规规划方法划方法求解。求解。现设现设A以概率以概率x2采取策略采取策略 2,若,若B采取策略采取

40、策略 2,则则A的期望的期望赢赢得得为为a11(1x2)+a21x2。对应对应x2的不同取的不同取值值(0 x21),),a11(1x2)+a21x2恰好构成恰好构成连连接两个接两个B1的直的直线线段。段。类类似地,似地,连连接两个接两个B2的直的直线线段恰好段恰好对应对应当当B取取 2而而A以概率以概率x2取取2时时的的赢赢得得a12(1x2)+a22x2。设设两直两直线线段相交于段相交于N,并并设设N对应对应于于 。若。若A以小于以小于 的的x2取策略取策略 2,则则B可以采取可以采取 1使使A的期望的期望赢赢得减小;反之,若得减小;反之,若x2 ,则则B又可采取又可采取 2而使而使A的的

41、赢赢得减小。故得减小。故A的的最佳混合策略最佳混合策略为为以以 =1 概率取概率取 1,以概率取,以概率取 2(注:(注:B的最佳混的最佳混合策略可合策略可类类似用几何方法求得)。似用几何方法求得)。A方方选择选择混合策略混合策略 的目的是使得的目的是使得其中其中ej为为只有第只有第j个分量个分量为为1而其余分量均而其余分量均为为零的向量,零的向量,Ej=XTRej。记记 ,由于,由于 ,在在yk=1,yj=0(jk)时时达到最大达到最大值值u,故故 应为线应为线性性规规划划问题问题 min u ,j=1,2,n(即即EjEk)xi0,i=1,2,mS.t的解。的解。同理,同理,应为线应为线性

42、性规规划划max ,i=1,2,myj0,i=1,2,nS.t的解。的解。(2)(3)由由线线性性规规划知划知识识,(,(2)与()与(3)互)互为对为对偶偶线线性性规规划,它划,它们们具有相同的最具有相同的最优优目目标标函函数数值值。关于。关于线线性性规规划划对对偶理偶理论论,有,有兴兴趣的趣的读读者可以参者可以参阅阅有关有关书书籍,例如籍,例如鲁鲁恩伯杰恩伯杰的的“线线性与非性与非线线性性规规划引划引论论”。为为了了寻寻找例找例5中中A方的最方的最优优混合策略,求解混合策略,求解线线性性规规划划min uS.t 0.82x1+x2 u x1+0.58x2 u x1+x2=1 x1,x2 0

43、可得最可得最优优混合策略混合策略x1=0.7,x2=0.3。类类似求解似求解线线性性规规划划max S.t 0.82y1+y2 y1+0.58y2 y1+y2=1 y1,y2 0可得可得B方最方最优优混合策略:混合策略:y1=0.7,y2=0.3。四、非零和四、非零和对对策策除了零和除了零和对对策外,策外,还还存在着另一存在着另一类对类对策策问题问题,局中人,局中人获获利之和并非常数。利之和并非常数。例例6 6 现现有一有一对对策策问题问题,双方,双方获获利情况利情况见见表表5 5。表表 5 5B方方A方方1231234(8,2)(3,4)(1,6)(4,2)(0,9)(9,0)(6,2)(4

44、,6)(7,3)(2,7)(8,1)(5,1)假如假如A、B双方仍采取双方仍采取稳稳妥的妥的办办法,法,A发现发现如采取策略如采取策略4,则则至少可至少可获获利利4,而,而B发现发现如采取策略如采取策略1,则则至少可至少可获获利利2。因而,。因而,这这种求种求稳稳妥的想法妥的想法将将导导致出致出现现局局势势(4,2)。)。容易看出,从整体上看,容易看出,从整体上看,结结果并不是最好的,因果并不是最好的,因为为双方的双方的总获总获利有可利有可能达到能达到10。不。不难难看出,依靠看出,依靠单单方面的努力不一定能收到良好的效果。看方面的努力不一定能收到良好的效果。看来,来,对这对这一一对对策策问题

45、问题,双方最好,双方最好还还是握手言和,相互配合,先取得是握手言和,相互配合,先取得总总体体上的最大上的最大获获利,然后再按某一双方均利,然后再按某一双方均认为较为认为较为合理的方式来分享合理的方式来分享这这一已一已经获经获得的最大得的最大获获利。利。例例6说说明,明,总获总获利数并非常数的利数并非常数的对对策策问题问题(即不能(即不能转转化化为为零和零和对对策的策的问问题题),是一),是一类类存在着合作基存在着合作基础础的的对对策策问题问题。当然,。当然,这这里里还还存在着一个留待存在着一个留待解决而又十分关解决而又十分关键键的的问题问题:如何分享:如何分享总获总获利,如果不能达到一个双方(

46、或利,如果不能达到一个双方(或各方)都能接受的各方)都能接受的“公平公平”的分配原的分配原则则,则则合作仍然不能合作仍然不能实现实现。怎。怎样样建立一建立一个个“公平公平”的分配原的分配原则则是一个是一个较为较为困困难难的的问题问题。1953年,年,Shapley用公理化用公理化方法研究了这一问题,并提出了他认为公平的分配方法(可参阅有关对策方法研究了这一问题,并提出了他认为公平的分配方法(可参阅有关对策论的书籍)。论的书籍)。最后,我们来考察几个对策问题最后,我们来考察几个对策问题的实例。的实例。例例7 7(战战例分析)例分析)1944年年8月,美月,美军军第一第一军军和英和英军军占占领领法

47、国法国诺诺曼第不久,曼第不久,立即从海防前立即从海防前线线穿穿过过海峡,向海峡,向Arranches进军进军。美。美军军第一第一军军和英和英军军的行的行动动直接威直接威胁胁到德到德军军第九第九军军。美。美军军第三第三军军也开到了也开到了Arranches的南部,双方的南部,双方军军队队所所处处的地理位置如的地理位置如图图2所示。所示。美美军军方面的指方面的指挥挥官是官是Bradley将将军军,德,德军军指指挥挥官是官是Von Kluge将将军军。Von Kluge将将军军面面临临的的问题问题是或者是或者向西向西进进攻,加攻,加强强他的西部防他的西部防线线,切断,切断美美军军援助;或者撤退到援助

48、;或者撤退到东东部,占据塞部,占据塞那河流域的有利地形,并能得到德那河流域的有利地形,并能得到德军军第十五第十五军军的援助。的援助。Bradley将将军军的的问题问题是如何是如何调动调动他他的后的后备军备军,后,后备军驻备军驻扎在海峡南部。扎在海峡南部。Bradley将将军军有三种可供有三种可供选择选择的策略:的策略:他可以命令后他可以命令后备军备军原地待命,当海峡原地待命,当海峡形形势势危急危急时时支援第一支援第一军军或出或出击东击东部部敌敌人,以减人,以减轻轻第一第一军军的的压压力。力。双方双方应应如何决策,使自己能有如何决策,使自己能有较较大的机会大的机会赢赢得得战战争的争的胜胜利呢?利

49、呢?我我们们将用建立矩将用建立矩阵对阵对策模型的方法,来策模型的方法,来试图试图求得双方的最求得双方的最优优策略。模型假策略。模型假设设:1、Bradley将将军军和和Von Kluge将将军军分分别为对别为对策策问题问题的局中人的局中人A和和B。2、局中人、局中人A的策略集合的策略集合为为SA=1,2,3,其中:其中:1为为后后备军备军增援保增援保卫卫海峡;海峡;2为为后后备军东备军东征,切断德征,切断德军军后路;后路;3为为后后备军备军待命待命 3、局中人、局中人B的策略集合的策略集合为为SB=1,2,其中:其中:1为为德国向西德国向西进进攻海峡,攻海峡,切断美切断美军军援助;援助;2为为

50、德德军军撤退到撤退到东东部,占部,占领领塞塞纳纳河流域有利地形。河流域有利地形。4、SA、SB构成六种构成六种纯纯局局势势,综综合双方合双方实实力,各种局力,各种局势势估估计结计结果如下。若果如下。若B采取采取策略策略 1,即德,即德军军采取攻采取攻势势,则则有有(1)()(1,1),估),估计计美美军击败军击败德德军军并占并占领领海峡的可能性(即概率)海峡的可能性(即概率)为为(2)()(2,1),估),估计计美美军军取取胜胜的可能的可能为为 。德。德军军很可能打破美很可能打破美军军第一第一军军的防的防线线,并切断美,并切断美军军的退路。的退路。(3)()(3,1),估),估计计美美军军可以

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服