资源描述
博弈论混合策略纳什均衡剪刀、石头、布得游戏剪刀、石头、布得游戏每个同学跟后面一排对应得同学玩剪刀、石每个同学跟后面一排对应得同学玩剪刀、石头、布得游戏头、布得游戏、玩二十次玩二十次,将结果记下来将结果记下来赢了十次以上同学举起手来赢了十次以上同学举起手来告诉我您有什么秘决告诉我您有什么秘决怎么样才能赢得多?怎么样才能赢得多?剪刀、石头、布得游戏剪刀、石头、布得游戏我们知道我们知道如果博弈只进行一次如果博弈只进行一次,我们无法明确预测博我们无法明确预测博弈得结果弈得结果,不管就是哪个博弈方不管就是哪个博弈方,也不管她们也不管她们得选择就是哪个策略得选择就是哪个策略,都不能保证得到较好都不能保证得到较好得结果。根据我们上一章所学得方法得结果。根据我们上一章所学得方法,这个这个博弈没有纳什均衡。博弈没有纳什均衡。那么就是不就是意味着这样得博弈中那么就是不就是意味着这样得博弈中,您可您可以随意选择以随意选择,结果都一样呢?结果都一样呢?剪刀、石头、布得游戏剪刀、石头、布得游戏答案就是否定得。答案就是否定得。事实上事实上,局中人得选择仍然就是很有讲究得局中人得选择仍然就是很有讲究得,策略选择得好坏对局中人得利益仍然有很大策略选择得好坏对局中人得利益仍然有很大得影响。得影响。在这个零与博弈里在这个零与博弈里,无论双方采用哪种策略无论双方采用哪种策略组合组合,结果都就是一方输一方赢结果都就是一方输一方赢,而输得一方而输得一方又总就是可以通过单独改变策略而反输为赢。又总就是可以通过单独改变策略而反输为赢。如果哪个局中人能找到对手方得规律或者偏如果哪个局中人能找到对手方得规律或者偏好好,她就能猜测到对手得策略而采用针对性她就能猜测到对手得策略而采用针对性策略从而保证赢。策略从而保证赢。剪刀、石头、布得游戏剪刀、石头、布得游戏因此因此,秘决在于秘决在于自己得策略选择不能预先被对手方知道或猜自己得策略选择不能预先被对手方知道或猜测到测到,在该博弈得多次重复中在该博弈得多次重复中,博弈方一定要博弈方一定要避免自己得选择具有规律性避免自己得选择具有规律性;观察对手方策略选择就是否具有规律或者偏观察对手方策略选择就是否具有规律或者偏好好,预先猜测对手策略预先猜测对手策略,从而采用针对性策略从而采用针对性策略赢得这个博弈。赢得这个博弈。第三章第三章 混合策略纳什均衡混合策略纳什均衡纯策略纯策略(pure strategies):如果一个策略规定如果一个策略规定参与人在一个给定得信息情况下只选择一种参与人在一个给定得信息情况下只选择一种特定得行动。特定得行动。混合策略混合策略(mixed strategies):如果一个策略如果一个策略规定参与人在给定得信息情况下规定参与人在给定得信息情况下,以某种概以某种概率分布随机地选择不同得行动。率分布随机地选择不同得行动。在静态博弈里在静态博弈里,纯策略等价于特定得行动纯策略等价于特定得行动,混混合策略就是不同行动之间得随机选择。合策略就是不同行动之间得随机选择。期望支付期望支付与混合策略与混合策略(mixed strategies)相伴随得一个问题相伴随得一个问题,就是局中人支付得不确定性就是局中人支付得不确定性(uncertainty)、可用可用期望支付期望支付(expected payoff)来描述来描述有个有个n可可能得取值能得取值X1,X2,Xn,并且这些取值发生得概率分并且这些取值发生得概率分别为别为p1,p2,pn,那么我们可以将这个数量指标那么我们可以将这个数量指标得期望值定义为发生概率作为权重得所有可能取得期望值定义为发生概率作为权重得所有可能取值得加权平均值得加权平均,也就就是也就就是政府与流浪汉得博弈政府与流浪汉得博弈政府想帮助流浪汉政府想帮助流浪汉,但前提就是后者必须试图但前提就是后者必须试图寻找工作寻找工作,否则否则,不予帮助不予帮助;而流浪汉若知道政而流浪汉若知道政府采用救济策略得话府采用救济策略得话,她就不会寻找工作。她她就不会寻找工作。她们只有在得不到政府救济时才会寻找工作。她们只有在得不到政府救济时才会寻找工作。她们获得得支付如图所示们获得得支付如图所示:(3,2)(-1,3)(-1,1)(0,0)流浪汉流浪汉寻找工作寻找工作 游闲游闲政府政府救济救济不救济不救济思考思考:政府会采用纯策略吗?流浪汉呢?这政府会采用纯策略吗?流浪汉呢?这个博弈有没有纯策略得纳什均衡?个博弈有没有纯策略得纳什均衡?跟您玩剪子石头布游戏一样跟您玩剪子石头布游戏一样,您会一直您会一直采用纯策略吗?采用纯策略吗?那么政府与流浪汉最有可能采用什么策略?那么政府与流浪汉最有可能采用什么策略?使自己得预期支付最大化。使自己得预期支付最大化。若能够猜得对方得策略若能够猜得对方得策略,就可以采用针就可以采用针对性得策略对性得策略,使自己得支付增加。使自己得支付增加。政府与流浪汉得博弈政府与流浪汉得博弈大家学习辛苦了,还是要坚持继续保持安静继续保持安静求解混合策略纳什均衡1、假定政府采用混合策略、假定政府采用混合策略:2、流浪汉得混合策略为、流浪汉得混合策略为:对上述效用函数求微分对上述效用函数求微分,得到政府最优化得一阶条件为得到政府最优化得一阶条件为:就就是说就就是说,从政府得最优化条件找到流浪汉混合策略从政府得最优化条件找到流浪汉混合策略流浪汉以流浪汉以0、2得概率选择寻找工作得概率选择寻找工作,0、8得概率选得概率选择游闲。择游闲。解一解一:支付最大化支付最大化那么那么,政府得期望效用函数为政府得期望效用函数为:流浪汉得期望效用函数为流浪汉得期望效用函数为:解一解一:支付最大化支付最大化解二解二:支付等值法支付等值法政府选择救济策略政府选择救济策略政府选择不救济策略政府选择不救济策略如果一个混合策略就是流浪汉得最优选择,那一定意味着政府在救济与不救济之间就是无差异得,即:解二解二:支付等值法支付等值法 如果一个混合策略就是政府得最优选择,那一定意味着流浪汉在寻找工作与游闲之间就是无差异得,即:如果政府救济得概率小于如果政府救济得概率小于0、5;则流浪汉得最优选择就是寻找工作则流浪汉得最优选择就是寻找工作;如果政府救济得概率大于如果政府救济得概率大于0、5;则流浪汉得最优选择就是游闲等待救济。则流浪汉得最优选择就是游闲等待救济。如果政府救济得概率正好等于如果政府救济得概率正好等于0、5;流浪汉得选择无差异。流浪汉得选择无差异。政府与流浪汉得博弈政府与流浪汉得博弈讨讨 论论上面得均衡要求每个参与人以特定得概率上面得均衡要求每个参与人以特定得概率选择纯策略。也就就是说选择纯策略。也就就是说,一个参与人选择一个参与人选择不同策略得概率不就是由她自己得支付决不同策略得概率不就是由她自己得支付决定得定得,而就是由她得对手得支付决定得。而就是由她得对手得支付决定得。正就是由于这个原因正就是由于这个原因,许多人认为混合策略许多人认为混合策略纳什均衡就是一个难以令人满意得概念。纳什均衡就是一个难以令人满意得概念。事实上事实上,正就是因为它在几个正就是因为它在几个(或全部或全部)策略策略之间就是无差异得之间就是无差异得,她得行为才难以预测她得行为才难以预测,混合策略纳什均衡才会存在。混合策略纳什均衡才会存在。讨讨 论论尽管混合策略不像纯策略那样直观尽管混合策略不像纯策略那样直观,但它确实就是但它确实就是一些博弈中参与人得合理行为方式。扑克比赛、一些博弈中参与人得合理行为方式。扑克比赛、垒球比赛、划拳就就是这样得例子垒球比赛、划拳就就是这样得例子,在这一类博弈在这一类博弈中中,参与比赛得总就是随机行动以使自己得行为不参与比赛得总就是随机行动以使自己得行为不被对方所预测。被对方所预测。经济学上得监督博弈也就是这样一个例子。如税经济学上得监督博弈也就是这样一个例子。如税收检查、质量检查、惩治犯罪、雇主监督雇员等收检查、质量检查、惩治犯罪、雇主监督雇员等都可以瞧成猜谜博弈。都可以瞧成猜谜博弈。纳什均衡得存在性纳什定理纳什定理:在一个由在一个由n个博弈方得博弈个博弈方得博弈 中中,如果如果n就是有限得就是有限得,且且 都就是有限集都就是有限集(对对 ),则该博则该博弈至少存在一个纳什均衡弈至少存在一个纳什均衡,但可能包含混合策略。但可能包含混合策略。证明过程省略证明过程省略,主要根据就是布鲁威尔与角谷得不动点定理。主要根据就是布鲁威尔与角谷得不动点定理。纳什均衡得普遍存在性正就是纳什均衡成为非合作博弈分纳什均衡得普遍存在性正就是纳什均衡成为非合作博弈分析核心概念得根本原因之一。析核心概念得根本原因之一。扑克牌对色游戏扑克牌对色游戏甲乙玩扑克牌对色游戏甲乙玩扑克牌对色游戏,每人都有红黑两张每人都有红黑两张扑克牌扑克牌,约定如果出牌颜色一样约定如果出牌颜色一样,甲输乙赢甲输乙赢,如果出牌颜色不一样如果出牌颜色不一样,则甲赢乙输。则甲赢乙输。找到这个博弈得纳什均衡。找到这个博弈得纳什均衡。-1,11,-11,-1-1,1红黑乙乙甲甲红黑 反应函数法反应函数法假设甲、乙均采用混与策略假设甲、乙均采用混与策略,随机地以随机地以p得概率出得概率出红牌与以红牌与以(1-p)得概率出黑牌得概率出黑牌,而乙则随机地以而乙则随机地以q得得概率出红牌与以概率出红牌与以(1-q)得概率出黑牌。得概率出黑牌。-1,11,-11,-1-1,1红q黑1-q乙乙甲甲红p黑1-p 反应函数反应函数A得目标就是期望支付越大越好。我们之所以把得目标就是期望支付越大越好。我们之所以把A得期望支付整理成不含得期望支付整理成不含p得一项与含得一项与含p得一项这个得一项这个样子样子,就是因为就是因为A只能选择只能选择p而不能而不能q,因此因此,A能通过能通过选择选择p来影响第一项来影响第一项,而不能直接影响第二项。而不能直接影响第二项。(1-2q)0即即q1/2时时,A把把p选择等于选择等于1最好最好;当当(1-2q)1/2时时,A把把p选择等于选择等于0最好最好;当当(1-2q)=0即即q=1/2时时,A可以在可以在0,1之间随便选择一个之间随便选择一个p。这样我们可以得到这样我们可以得到A得反应函数就是得反应函数就是,同样道理我同样道理我们可以得到们可以得到B得反应函数。得反应函数。0,如果如果q1/2 1,如果如果p1/2 p 0,1,如果如果q=1/2 q 0,1,如果如果p=1/2 1,如果如果q1/2 0,如果如果p1/2 反应函数曲线相应方法反应函数曲线相应方法pq1/21纳什均衡就是纳什均衡就是A与与B都出红牌或者黑牌得概率就是都出红牌或者黑牌得概率就是 一半对一半一半对一半 1/21练习练习:税收检查税收检查(监督博弈监督博弈)设定设定a就是应纳税款就是应纳税款;C就是检查成本就是检查成本;F就是罚就是罚款款,假定就是假定就是Ca+F。瞧瞧就是否存在纯策略。瞧瞧就是否存在纯策略纳什均衡?混合策略纳什均衡在哪里?纳什均衡?混合策略纳什均衡在哪里?字母说明字母说明此博弈不存在纯策略纳什均衡。此博弈不存在纯策略纳什均衡。我们用我们用p代表税收机关代表税收机关检查得概率得概率;q代表代表纳税人逃税得概率。税人逃税得概率。求解求解:混合战略纳什均衡混合战略纳什均衡之一之一假定纳税人采用混合策略达到最优选择时假定纳税人采用混合策略达到最优选择时,则则税收机关在税收机关在检查与不与不检查两种策略得期两种策略得期望收益相等望收益相等:(a-C+F)q+(a-C)(1-q)=a(1-q)q*=C/(a+F)说明说明如果纳税人逃税得概率小于如果纳税人逃税得概率小于q*,则则qC/a+F,税收机关得最优选择就是检查税收机关得最优选择就是检查;如果纳税人逃税得概率等于如果纳税人逃税得概率等于q*,则则q=C/a+F,税收机关随机地选择检查或不税收机关随机地选择检查或不检查。检查。之二之二假设采用混合策略就是税务机关得最优选假设采用混合策略就是税务机关得最优选择那么给定择那么给定p,纳税人税人选择逃税与不逃税得逃税与不逃税得期望收益相等期望收益相等:-(a+F)p+0(1-p)=-a得得p*=a/(a+F)说说 明明如果税收机关检查概率小于如果税收机关检查概率小于p*,即即p13c1时时,A A将增加将增加r,r,如果如果3c13c2/3r2/3时时,B B增加增加c c将增加收益将增加收益;当当r2/3r1/3c1/3,行参与人得最优反应行参与人得最优反应就是就是r=1r=1。0c1/3r11A得反得反应曲线应曲线2/3B得反得反应曲线应曲线三个红色得点三个红色得点为纳什均衡为纳什均衡,两个为纯策略两个为纯策略均衡。均衡。多重纳什均衡及其甄别多重纳什均衡及其甄别帕累托优势标准帕累托优势标准风险优势标准风险优势标准帕累托优势标准与风险优势标准帕累托优势标准与风险优势标准聚点均衡聚点均衡相关均衡相关均衡 抗共谋均衡抗共谋均衡瞧瞧这个博弈有几个纯策略纳什均衡瞧瞧这个博弈有几个纯策略纳什均衡?-5,-5-10,88,-1010,10战争和平国家国家2战争和平国国家家1战争与和平博弈战争与和平博弈帕累托优势标准帕累托优势标准帕累托优势标准帕累托优势标准这个博弈中有两个纯策略这个博弈中有两个纯策略纳什均衡纳什均衡,(战争战争,战争战争)与与(与平与平,与平与平),显然显然后者帕累托优于前者后者帕累托优于前者,所所以以,(与平与平,与平与平)就是本就是本博弈得一个按帕累托优势博弈得一个按帕累托优势标准筛选出来得纳什均衡。标准筛选出来得纳什均衡。-5,-5-10,88,-1010,10战争和平国家国家2战争和平国国家家1战争与和平博弈战争与和平博弈风险优势标准风险优势标准若考虑到或者说就是顾忌到其她博弈方可能发生错若考虑到或者说就是顾忌到其她博弈方可能发生错误得原因误得原因,帕累托上策均衡并不一定就是最优选择帕累托上策均衡并不一定就是最优选择,还需要比较风险优势。下面就就是两个例子。还需要比较风险优势。下面就就是两个例子。9,98,00,87,7LR博弈方博弈方2UD博博弈弈方方1风险上策均衡(风险上策均衡(D,R)风险优势标准风险优势标准从风险优势标准衡量从风险优势标准衡量,帕累托上策均衡帕累托上策均衡(鹿鹿,鹿鹿)并就并就是最优选择是最优选择,因为一旦对手方犯了错误因为一旦对手方犯了错误,晕了头晕了头,选择选择了鹿得策略时了鹿得策略时,您得支付就会由您得支付就会由5变成变成0!您会选择这!您会选择这么高风险得策略吗?而么高风险得策略吗?而(兔兔,兔兔)得策略组合得策略组合,当对手当对手方犯了错误方犯了错误,晕了头晕了头,选择了鹿得策略时选择了鹿得策略时,您得支付还您得支付还就是就是3,并没有损失!并没有损失!5,53,00,33,3鹿兔猎人猎人2鹿兔猎猎人人1猎鹿博弈猎鹿博弈聚点均衡聚点均衡聚点均衡就是利用博弈设定以外得信息与依据选聚点均衡就是利用博弈设定以外得信息与依据选择得均衡。文化、习惯、心理或者其她各种特征择得均衡。文化、习惯、心理或者其她各种特征都可能就是聚点均衡得依据。都可能就是聚点均衡得依据。城市博弈城市博弈(城市分组相同城市分组相同)、时间博弈、时间博弈(报出相同报出相同得时间得时间)就是聚点均衡得典型例子。就是聚点均衡得典型例子。城市博弈城市博弈:聚点均衡得例子聚点均衡得例子游戏游戏:请两个同学上来将四个城市进行分组请两个同学上来将四个城市进行分组,分成分成两组两组,每组两个城市。如果分组方法相同每组两个城市。如果分组方法相同,则每人则每人平时分加平时分加5分。分。城市博弈城市博弈:聚点均衡得例子聚点均衡得例子这四个城市就是这四个城市就是:上海、长春、哈尔滨、南京上海、长春、哈尔滨、南京相相 关关 均均 衡衡5,14,40,01,5LR博弈方博弈方2UD博博弈弈方方1相关均衡例子相关均衡例子三个纳什均衡三个纳什均衡:无论就是无论就是纯策略得纳什均衡纯策略得纳什均衡(U,L)、(D,R);混合策略得纳什均衡混合策略得纳什均衡(1/2,1/2),结果都不理想结果都不理想,不如不如(U,L)、(D,R)、(D,L)。利用聚点均衡利用聚点均衡(天气天气,抛硬币抛硬币),但仍不理想。但仍不理想。相相 关关 均均 衡衡相关装置相关装置:1、各、各1/3概率概率A、B、C2、博弈方、博弈方1瞧到就是否瞧到就是否A,博弈方博弈方2瞧到就是否瞧到就是否C3、博弈方、博弈方1见见A采用采用U,否则否则D;博弈方博弈方2见见C采用采用R,否则否则L。相关均衡要点相关均衡要点:1、构成纳什均衡、构成纳什均衡2、有人忽略不会造成问题、有人忽略不会造成问题一、多人博弈中得共谋问题一、多人博弈中得共谋问题这个博弈纯策略得纳什均衡就是什么?这个博弈纯策略得纳什均衡就是什么?0,0,10-5,-5,0-5,-5,01,1,-5LRUD博弈方博弈方2博博弈弈方方1博弈方博弈方3A-2,-2,0-5,-5,0-5,-5,0-1,-1,5LRUD博弈方博弈方2博博弈弈方方1博弈方博弈方3B共谋与抗共谋均衡共谋与抗共谋均衡本博弈得纯策略纳什均衡本博弈得纯策略纳什均衡:(U,L,A)、(D,R,B)前者帕累托优于后者。博弈得结果会就是什么呢?前者帕累托优于后者。博弈得结果会就是什么呢?(U,L,A)有共谋有共谋(Coalition)问题问题:博弈方博弈方1与与2同时偏离。同时偏离。0,0,10-5,-5,0-5,-5,01,1,-5LRUD博弈方博弈方2博博弈弈方方1博弈方博弈方3A-2,-2,0-5,-5,0-5,-5,0-1,-1,5LRUD博弈方博弈方2博博弈弈方方1博弈方博弈方3B共谋与抗共谋均衡共谋与抗共谋均衡博弈得结果会就是什么呢?博弈得结果会就是什么呢?(U,L,A)有共谋有共谋(Coalition)问题问题:博弈方博弈方1与与2同时偏离。同时偏离。(D,R,B)就是防共谋均衡!就是防共谋均衡!0,0,10-5,-5,0-5,-5,01,1,-5LRUD博弈方博弈方2博博弈弈方方1博弈方博弈方3A-2,-2,0-5,-5,0-5,-5,0-1,-1,5LRUD博弈方博弈方2博博弈弈方方1博弈方博弈方3B共谋与抗共谋均衡共谋与抗共谋均衡防共谋均衡防共谋均衡 如果一个博弈得某个策略组合满足下列要求如果一个博弈得某个策略组合满足下列要求,称为称为“防共谋均衡防共谋均衡”:(1)没有任何单个博弈方得没有任何单个博弈方得“串通串通”会改变博弈得结会改变博弈得结果果,即单独改变策略无利可图即单独改变策略无利可图;(2)给定选择偏离得博弈方有再次偏离得自由时给定选择偏离得博弈方有再次偏离得自由时,没没有任何两个博弈方得串通会改变博弈得结果有任何两个博弈方得串通会改变博弈得结果;(3)依此类推依此类推,直到所有博弈方都参加得串通也不会直到所有博弈方都参加得串通也不会改变博弈得结果。改变博弈得结果。前面例子中前面例子中:(D,R,B)就是防共谋均衡就是防共谋均衡 (U,L,A)不就是防共谋均衡不就是防共谋均衡一点说明存在博弈得纳什均衡存在博弈得纳什均衡,并意味参与者一定不并意味参与者一定不拒绝这种纳什均衡。拒绝这种纳什均衡。练习练习:竞争博弈竞争博弈竞争博弈就是一种零与博弈竞争博弈就是一种零与博弈,即博弈一方得收即博弈一方得收益等于另一方得损失。多数体育竞技项目都就益等于另一方得损失。多数体育竞技项目都就是零与博弈是零与博弈:一个组得一个组得1分等价于另一个组失去分等价于另一个组失去一分。参与人之间得利益就是完全相反得。一分。参与人之间得利益就是完全相反得。例如例如,在一个足球比赛中在一个足球比赛中,前锋主罚点球前锋主罚点球,守门守门员防守。如果守门员扑错了方向员防守。如果守门员扑错了方向,前锋得分得前锋得分得可能性大一些。同时可能性大一些。同时,前锋可能善于踢向某一前锋可能善于踢向某一个方向个方向,而守门员可能善于扑向某一个方向。而守门员可能善于扑向某一个方向。但双方都有朝两个方向得可能。但双方都有朝两个方向得可能。假定如果假定如果前锋前锋踢向球门得左方踢向球门得左方,当当守门员守门员扑向右方时扑向右方时,前锋前锋将就是得分得把握将就是得分得把握80%80%,当当守门员守门员扑向左方时扑向左方时,前前锋锋得分得把握得分得把握50%50%。如果如果前锋前锋踢向球门得右方踢向球门得右方,当当守门员守门员扑向左方时扑向左方时,前锋前锋得分得把握得分得把握90%90%,当当守门员守门员扑向右方时扑向右方时,前锋前锋得分得把得分得把握就是握就是20%20%。注。注:前锋前锋得得分得得分,就为就为守门员守门员得失分。得失分。画出这个竞争博弈得支付矩阵画出这个竞争博弈得支付矩阵,并求纳什均衡并求纳什均衡、这个博弈得纳什均衡有两种写法前锋前锋守门员守门员左左p右右1-p左左q右右1-q50,-5080,-8090,-9020,-20这个博弈得支付矩阵有两种写法前锋前锋守门员守门员左左p右右1-p左左q右右1-q50,5080,2090,1020,80纳什均衡纳什均衡计算得前锋应该按概率计算得前锋应该按概率0 0、7 7踢向左方踢向左方,而守门员应而守门员应该按概率该按概率0 0、6 6扑向左方。扑向左方。这些概率使得无论对方采取什么策略这些概率使得无论对方采取什么策略,双方都得到双方都得到相等得收益。即当前锋选择相等得收益。即当前锋选择p=0p=0、7 7时时,守门员扑向守门员扑向左方与右方无差异左方与右方无差异,即不会影响前锋得收益即不会影响前锋得收益,但她会但她会乐意以乐意以0 0、6 6得概率扑向左方。同样得概率扑向左方。同样,当守门员选择当守门员选择q=0q=0、6 6时时,前锋踢向左方与右方无差异前锋踢向左方与右方无差异,但她会乐意但她会乐意以以0 0、7 7得概率踢向左方。得概率踢向左方。这就形成了纳什均衡。给定对方得选择这就形成了纳什均衡。给定对方得选择,每一个参每一个参与人得选择都就是最优得。与人得选择都就是最优得。前锋与守门员得最优反应曲线前锋与守门员得最优反应曲线当当p0p0p0、7 7时时,守门守门员将扑向右方。类似得员将扑向右方。类似得,当当q0q0q0、6 6时时,前锋将踢向右方。前锋将踢向右方。0q0、6p11守门员得守门员得反映曲线反映曲线0、7前锋得反映曲线前锋得反映曲线激励得悖论一小偷欲偷有守卫瞧守得仓库,若小偷去偷时守卫睡觉(不负责),则小偷偷窃成功(令其价值就是V),若守卫没有睡觉(尽职尽责),则小偷会被抓住坐牢(设其效用为-A);再假设守卫睡觉而未被偷得效用为S,守卫睡觉而被偷则被解雇,其效用为-D。写出得益矩阵,并分析如果想减少小偷偷东西得现象发生,如何做效果更好?小偷与守卫博弈小偷与守卫博弈小偷小偷守卫守卫偷偷p不偷不偷1-p睡睡q小睡小睡1-qV,-D-A,00,S0,0用支付最大化值求出用支付最大化值求出:用支付最大化值求出用支付最大化值求出:当加大对小偷得处罚当加大对小偷得处罚,守卫偷守卫偷懒得概率会增加懒得概率会增加当加大对守卫得处罚当加大对守卫得处罚,小偷小偷偷东西得概率会减小偷东西得概率会减小
展开阅读全文