资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,博弈论,孙子兵法的一些阐述,兵者,诡道也。故能而示之不能,用而示之不用,近而示之远,远而示之近。利而诱之,乱而取之,实而备之,强而避之,怒而扰之,卑而骄之,佚而劳之,亲而离之。攻其无备,出其不意。,发展:敌进我退,敌驻我扰,敌疲我打,敌退我追。,是故百战百胜,非善之善者也;不战而屈人之兵,善之善者也。故上兵伐谋,其次伐交,其次伐兵,其下攻城。,故用兵之法,十则围之,五则攻之,倍则分之,敌则能战之,少则能逃之,不若则能避之。,昔之善战者,先为不可胜,以待敌之可胜。不可胜在己,可胜在敌。故善战者,能为不可胜,不能使敌之可胜。故曰:胜可知而不可为。,不可胜者,守也;可胜者,攻也。守则不足,攻则有余。,启示,在实力不足的情况下,不要向跟你有重大利害关系的对象进行直接的对抗。,启示二,只要你的发展不会直接威胁到他人,就不会引发对抗。对抗经常会带来双输,因此要能避战而不畏战。能避战是智者,不畏战是强者,好战是愚者,以战求和是勇者。,博弈中的胜利主要建立在自己本身的获益程度,而不是建立在对手失败的基础上,惨胜就是失败。,Strategic Thinking,Robert Aumann,教授拍卖百元大钞,,至无人出价时停止,由喊出最高价,者得此百元大钞,并须付给教授他,所喊的价格,同时喊出次高价者亦,须付出他所喊的价格。什么是你的,最佳策略?,1-1,博弈论与策略行为(,1,):学科概念,博弈论(,Game Theory,)又名对策论,游戏论。顾名思义,是一门研究互动关系的游戏中参与者各自选择策略的科学,换言之,是研究机智而理性的决策者之间冲突及合作的学科。博弈论把这些复杂关系理论化,以便分析其中的逻辑和规律,并对实际决策提供指导或借鉴。,一个所谓游戏至少需要三个要素:(,1,)博弈或游戏参加者。博弈论假定参与者都是机智而理性的。(,2,)行动或策略空间。博弈参与者必须知道他自己及其对手伙伴的策略选择范围,并了解各种策略之间的因果关系。(,3,)有可评价优劣高下的决策行为结果。博弈论用数字表示这类结果,并称之为支付(,Payoff).,上述,3,部分描述了一个博弈的规则或结构。,博弈论与策略行为(,2,):支付矩阵,可以用支付矩阵(,Payoff Matrix,,又称得益矩阵,收益矩阵,赢得矩阵等)来描述一个博弈结构。下面这个简单的支付矩阵中,,有两个参与者厂商,A,和厂商,B,;,它们各自可以选择两种策略,分别用,“,左右,”,和,“,上下,”,来标识(它们可以表示生产或不生产某种商品,提高或不提高价格,做不做广告的选择等);数字表示双方在不同策略选择组合下各自得到的支付,较大数字代表较大利益或效用。例如,在厂商,A,和,B,分别选择上和左代表的策略时,左上角方框的数字,“,1,2,”,表示,A,和,B,分别得到的支付。同理,,A,和,B,分别选择策略下和右时,它们分别得到右下角方框数字,“,1,0,”,代表的支付。,1,,,2,1,,,0,2,,,1,0,,,1,左,上,右,下,厂商,B,厂商,A,博弈论与策略行为(,3,):占优策略,由于游戏参与者试图实现自身利益最大化并具有机智而理性的决策能力,加上信息方面的假定,所以上述支付矩阵表示的博弈具有一个简单而确定的结果。从厂商,A,角度来说,它采取策略,“,下,”,而得到的支付总是好于,“,上,”,(,2,,,1,分别对,1,,,0,)。同样,对于,B,来说,选择策略,“,左,”,得到的利益总是优于,“,右,”,(,1,,,2,分别对,0,,,1,)。因此,我们可以确定预期均衡选择策略是,A,选择,“,下,”,而,B,选择,“,左,”,的策略。,这一博弈中每个参与者都存在一个支配策略(,Dominant Strategy,,又称占优或超优策略,),。,不管其它参与者如何选择,每个局中人自有的那个最优选择称作支配策略,由此实现的均衡是支配均衡(又称,占优或超优均衡),。,1,,,2,1,,,0,2,,,1,0,,,1,左,上,右,下,厂商,B,厂商,A,博弈论的基本分类(一),按照博弈方,单人博弈、双人博弈、多人博弈,-7000,-10000,-10000,-16000,好天气(,75,),水路,坏天气(,25,),陆路,自然,商人,自然,双人博弈,注意:,1,、双人博弈中的两个博弈方之间并不总是相互对抗的。,合作博弈与非合作博弈,2,、在双人博弈中,掌握信息较多并不能保证收益一定也较多。,3,、个体的理性并不意味着集体的理性(囚徒困境),合作博弈,未必是你输我赢,合作博弈的关键是每位参赛者所赢得的不能超过他对于整场赛局的贡献,(you can not take away more than your added value),要问你能为其他人带来什么,而不是其他人为你带来什么,启示一,在复杂世界中,没有真正的零合博弈,永远都存在可以互利、妥协的双赢空间。,启示二:把非合作博弈转化为合作博弈,在博弈中求胜的原则就是尽量增加你的价值。由于直接冲突与对抗多半只会减少博弈的整体价值,因此能避则避之。所谓竞合理论就是在竞争与合作的过程中,来增加自己在游戏中的价值。,启示三,在实力不足的情况下,你与对手合作的利益将可能要大于对抗的利益。因此要设法寻求与对手合作的机会,而合作的基础在于你对于你的对手可以带来多少的价值。,启示四,当你必须依赖你的对手才能产生价值,那你此时就受制于人。因此在博弈中要尽量使你的对手依赖你,才能显示出你在博弈中的价值与地位。,启示五,当你的对手有更重要的对手时,你在博弈中的地位与价值将会因此而提升。因为大家都想利用你、联合你,且不想与你为敌。(联合次要敌人,打击主要敌人),囚徒困境,下面支付矩阵表示著名的,“,囚徒的困境(,Prisoners,Dilemma),”,游戏。从博弈论角度看,这是一个存在支配均衡的博弈:因为对囚犯,A,,,B,来说,无论对方如何选择,,“,坦白,”,都是各自的最优选择。,虽然从两名囚犯共同利益看,最好的选择是合作,即同时选择保持沉默,然而,由于猜忌,试图获得更大好处(,3,个月刑期)等竞争性动机阻碍了它们达到更好的互利选择,它们面临,“,囚徒的困境,”,。我们将看到,寡头垄断厂商经常面临类似的困境。,A,坐,3,年牢,B,坐,3,年牢,A,坐,1,年牢,B,坐,1,年牢,A,坐,10,年牢,B,坐,3,个月牢,A,坐,3,个月牢,B,坐,10,年牢,坦白,坦白,保持沉默,保持,沉默,囚犯,B,囚犯,A,智猪博弈,智猪博弈的启示一,启示二:,游戏中的游戏规则如果由实力强的一方来订定,那么弱者将很难有获胜的机会。此时弱者唯有寻求改变游戏规则,或另起炉灶。,纳什,均衡,支配均衡是一个特例,并非每个博弈都存在支配均衡。下面修改的支付矩阵表示的博弈中,厂商,A,,,B,在选择做广告问题上存在的策略关系。其中厂商,A,没有支配策略。因为,A,的最佳决策取决于,B,的选择。例如,当,B,选择做广告时,,A,应当选择做广告,由此得到,10,而不是,6,的支付得益;然而,当,B,选择不做广告时,,A,应当选择不做广告,从而得到,20,而不是,15,的支付得益。假定两个厂商需要同时决策,,A,应当如何决策?,解答这一问题,,A,需要把自己放在,B,的位置,从,B,的角度看什么是最好的选择,并在此基础上考虑自己的选择。支付矩阵表明,B,有一个支配策略:不论,A,选择如何,,B,选择做广告时利益较大(,5,,,8,对,0,,,2,),因而,A,可以判断,B,会选择做广告。而在,B,做广告时,,A,应当选择做广告。因而,均衡结局是双方都做广告。,10,,,5,10,,,2,6,,,8,15,,,0,做广告,不做广告,厂商,B,厂商,A,做广告,不做广告,纳什,均衡,修改后的广告博弈,10,,,5,20,,,2,6,,,8,15,,,0,做广告,不做广告,厂商,B,厂商,A,做广告,不做广告,纳什均衡,上述均衡结果被称作纳什均衡,(The Nash Equilibrium),。纳什均衡指一组给定对手行为前提下个对各博弈方存在的最佳选择;在纳什均衡状态下,只要其它参与者不变换策略选择,任何单个参与者不可能单方面通过变换策略来提高他的所获支付。美国数学家和统计学家纳什(,Nash)50,年代提出这一概念,所以称作纳什均衡。,在上面广告策略关系事例中,给定厂商,B,做广告的策略,,A,所能做的一个最好选择是做广告;而当,A,做广告时,,B,的选择仍是它能做的最好的。因而,纳什均衡条件得到满足。,它与支配策略均衡的区别在于:在纳什均衡下,,“,我(你)所做的是,给定,你(我)的选择我(你)所能做的最好的,”,,而支配均衡下,,“,我(你)所做的是,不论,你(我)的选择我(你)所能做的更好的,”,。支配均衡必然是纳什均衡,但纳什均衡未必是支配均衡。,纳什均衡,一个博弈可能有好几个纳什均衡(即几组稳定并且自我坚持的策略),有时又可能不存在纳什均衡。,管理的含义,寻找聚点。,2,,,1,1,,,2,0,,,0,0,,,0,球,球,电影,电影,女,男,1,,,1,1,,,1,1,,,1,1,,,1,正,正,反,反,局中人,B,局中人,A,(左),(右),启示,如果想要不战而退敌,你必须要事先能够提出足以阻吓他人的明显事实证据。,降低自由度的方法,改变博弈的结果,使得你的承诺符合自己的利益,建立信誉(淘宝),写一个合约(工程进度、减肥、戒烟),改变博弈,使自己无法违背承诺,切断联系,破釜沉舟,让后果超出控制,因小失大,团队,代理人(机器),如果有风险规避者存在,1,,,0,2,,,1,1000,,,0,1,,,1,左,上,右,下,局中人,B,局中人,A,启示,强者在赛局中一定要保留给弱者一些可以生存的空间,以避免弱者做出意外的极端举动。,不要与好战者处于同一个战场,尽量寻求在不同市场区隔中发展,而不要直接在同一个战场上直接对抗。,重复博弈,上面讨论的,“,囚徒的困境,”,暗含的几个假定是静态的一次性博弈,结果陷入了个体理性决策导致集体非理性结果的困境。现在我们改变假定条件,讨论博弈可以多次进行的重复博弈(,Repeated Game),。这时囚犯同时选择不交代有可能成为纳什均衡点。,因为重复性博弈中选择坦白的机会成本太高,可能成为不利的选择。例如,,A,有机会与,B,组成策略联盟,并对,B,宣布如下方针:我将选择沉默,并要求你也如此来增进各自利益;然而,如果你半途背叛选择坦白,我从下一阶段游戏开始便一直采取坦白。这一方针与,A,利益一致,因而是可信的。从,B,角度来看,如和,A,合作,可在每阶段得到,1,年监禁的较好结果;如中途变卦,固然当期可得一次,3,个月的更好结果,但此后便每次面临,3,年监禁后果,显然是不利的。因而,重复性博弈中,,”,沉默,+,沉默,“,点可能成为对双方最佳选择,因而成为纳什均衡点。,由于博弈条件由一次性变为重复性,均衡状态随之发生变化。,定价问题,10,,,10,50,,,50,50,,,100,100,,,50,低,低,高,高,厂商,2,厂商,1,序列博弈,至此讨论的博弈是参与者同时选择。在序列博弈(,Sequential Game),中,各博弈方先后依次行动。下面支付矩阵描述了一个博弈,如果同时行动,它有两个纳什均衡点(,“,甜,咸,”,与,“,咸,甜,”,)。假定厂商,A,可以先推出甜饼干(如较快投入生产),我们就有了序列博弈:,A,先作决策,,B,随后选择。,A,决策时必须考虑竞争者的理性反应:它知道不论自己推出那种饼干,,B,出于自身利益会推出另一种。因而,A,推出甜饼干,,B,在给定,A,决策时选择咸饼干;给定,B,的选择,A,的选择仍然最佳。结果两个纳什均衡点收敛为一个(下,左)。其中,A,由于具有先行者优势(,First Mover,s Advantage,)而得到较大利益,,-5,,,-5,-5,,,-5,20,,,10,10,,,20,咸饼干,咸饼干,甜饼干,甜饼干,厂商,B,厂商,A,Extensive form,sequential game,消除先行者优势,10,,,10,0,,,0,0,,,100,100,,,0,生产,生产,不生产,不生产,空中客车,波音,博弈的扩展形,开金矿博弈,威胁与可置信度,空头威胁,100,,,80,10,,,20,20,,,0,80,,,100,高价,高价,低价,低价,奥克斯,海尔,讨价还价博弈,自由度的问题,进化博弈理论,生物在集团中采用某种行动时的个体适应度依赖于集团中其他生物的行动。如下例,都采取猛吃战略。,客气,猛吃,客气,2.5,,,2.5,0,6,猛吃,5,0,1,1,
展开阅读全文