1、单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1,2,第三章,先验分布的确定,3.1 主观概率,3.2 利用先验信息确定先验分布,3.3 利用边缘分布,m(x),确定先验密度,3.4 无信息先验分布,3.5 多层先验,3,一、主观概率,1.贝叶斯学派要研究的问题:如何用人们的经验和过去的历史资料确定概率和先验分布。,2.经典统计确定概率的两种方法:,(1)古典方法;(2)频率方法。,3.主观概率的定义:一个事件的概率是人们根据经验对该事件发生可能性所给出的个人信念。,3.1 主观概率,4,二、确定主观概率的方法,1.利用对立事件的比较确定主观概率(,
2、例3.1,);,2.利用专家意见确定主观概率(,例3.2,),;,3.向多位专家咨询确定主观概率(,例3.3,),;,4.充分利用历史资料,考虑现有信息加以修正,才能得到比较切合实际的主观概率(,例3.4,),。,5,1.利用对立事件的比较确定,主观概率,6,2.利用专家意见确定,主观概率,7,3.向多位专家咨询确定,主观概率,8,在座人员根据自己的经验各写了两个数,经理在计算了两个平均值后,稍加修改,提出自己看法:在上述两种情况下,本公司新产品畅销率各为,0.9,和,0.4,,这是经理在征求多位专家意见后所获得的主观概率。另据本公司情报部门报告,外厂正忙于另一项产品开发,很可能无暇顾及生产此
3、新产品。经理据此认为,外厂将生产此新产品的概率为,0.3,,不生产此产品的概率为,0.7.,利用上述四个主观概率,由全概率公式可得本公司生产此新产品获畅销的概率为,0.9*0.7+0.4*0.3=0.75,9,4.充分利用历史资料,考虑现有信息加以修正,10,注意事项:(,1,)不管按照什么方法确定的主观概率必须满足概率的三条公理:非负性公理:对任意事件,A,,,0P(A)1,。正则性公理:必然事件的概率为,1,可列可加性公理:对可列个互不相容的事件,A,1,,,A,2,,,,有(,2,)如果发现所确定的主观概率与上述三个公理及其推出的性质相悖,必须立即修正。直到两者一致为止。(例,3.5,)
4、11,12,3.2 利用先验信息确定先验分布,一、直方图法,二、选定先验密度函数形式再估计其超参数,三、定分度法与变分度法,13,一、直方图法,基本步骤:,1.把参数空间分成一些小区间;,2.在每个小区间上决定主观概率或依据历史数据确定其频率;,3.绘制频率直方图;,4.在直方图上作一条光滑曲线,此曲线即为先验分布,()。,例,3.6,某药材店记录了吉林人参的每周销售量,现要寻求每周平均销售量,的概率分布。,14,二、选定先验密度函数形式再估计其超参数,该方法的要点:,(,1,)根据先验信息选定,的先验密度函数,(),的形式,如选其共轭先验分布。,(,2,)当先验分布中含有未知参数(称为超,
5、参数)时,譬如,()=(,;,),,,给出超参数,的估计值 ,使,(,;,,),最接近先验信息。,15,16,17,说明,:如果有两个甚至多个先验分布都满足给定的先验信息,则要看情况选择:假如这两个先验分布差异不大,对后验分布影响也不大,则可任选一个;如果我们面临着两个差异极大的先验分布可供选择时,一定要根据实际情况慎重选择。,18,三、定分度法与变分度法,基本概念,:,(1),定分度法,:,把参数可能取值的区间逐次分为长度相等的小区间,每次在每个小区间上请专家给出主观概率,.,(2),变分度法,:,该法是把参数可能取值的区间逐次分为机会相等的两个小区间,这里的分点由专家确定,.,例,3.2.
6、3(,自学),19,3.3,利用边缘分布,m(x),确定先验密度,一、边缘分布,m(x),二、混合分布,三、先验选择的,ML-II,方法,四、先验选择的矩方法,20,一、边缘分布,m(x),设总体,X,的密度函数为,p(x|,),它含有未知参数,,若,的先验分布选用形式已知的密度函数,(,),则可算得,X,的边缘分布(即无条件分布):,当先验分布含有未知参数,譬如,(,),=,(,|,),,那么边缘分布,m(x),依赖于,,可记为,m(x|,),,这种边缘分布在寻求后验分布时常遇到。,21,22,23,二、混合分布,(1),混合分布的概念,:设随机变量,X,以概率,在总体,F,1,中取值,以概
7、率,1-,在总体,F,2,中取值。若,F(x|,1,),和,F(x|,2,),分别是这两个总体的分布函数,则,X,的分布,函数为:,F(x)=F(x|,1,)+(1-)F(x|,2,),或用密度函数(或概率密度)表示:,p(x)=p(x|,1,)+(1-)p(x|,2,),这个分布,F(x),称为,F(x|,1,),和,F(x|,2,),的混合分布。,这里的,和,1-,可以看作一个新随机变量,的分布,,即:,P(=,1,)=(,1,),,,P(=,2,)=1-=(,2,),24,(2),混合样本的概念,:,从混合分布中抽出的样本称为混合样本。注:从混合分布,F(x),中抽取一个样品,x,1,,
8、相当于 如下的二次抽样:,第一次,:,从,(),中抽取一个样品,。,第二次,:若,=,1,,则从,F(x|,1,),中再抽一个样品,这个样品就是,x,1,;若,=,2,,则从,F(x|,2,),中再抽一个样品,这个样品就是,x,1,25,若从混合分布抽取一个容量为,n,的样本,x,1,x,2,x,n,则约有,n(,1,),个来自,F(x|,1,),,约有,n(,2,),个来自,F(x|,2,),。,(3),实例分析,:,26,27,三、先验选择的,ML-,方法,定义:,设 为所考虑的先验类,且,x,=(x,1,x,2,x,n,),是来自边缘分布中的样本,若存在 满足(对观测数据,x,):,则
9、被称为,型极大似然先验,或简称为,ML-,先验。,说明:这里将,m(x),看成似然函数,28,29,30,四、先验选择的矩方法,在选择,时,可用矩方法代替极大似然方法。矩方法应用于当,有“已知函数形式”。即可利用先验矩与边缘分布矩之间的关系寻求超参数的估计。这种方法称为先验选择的矩方法。该方法的具体步骤是:,1.,计算总体分布,p(x|),的期望,(),和方差,2,(),,即,()=,E,x,|,(,X,),,,2,()=,E,x,|,X,-(),2,E,x,|,表示用,给定下的条件分布,p(x|),求期望,。,31,2.,计算边缘密度,m(x|),的期望,m,(),和方差 ,其中,:,32,
10、其中:,代入上式得:,33,3.,特殊情形,:,当先验分布中仅含二个超参数时,即,可用混合样本,计算其样本均值和样本方差,即:,再用样本矩代替边际分布的矩,列出如下方程,解此方程组,可得超参数,的估计,从而获得先验分布,34,解:,35,36,37,38,例,3.14,设总体,X,N(,,,1),,其中参数,的先验分,布取共轭先验 。试估计两个参数的值。,解:,39,3.4 无信息先验分布,一、贝叶斯假设,二、位置,尺度参数族的无信息先验,三、用,Fisher,信息阵确定无信息先验,40,一、贝叶斯假设,1.,贝叶斯假设的基本含义,无信息先验分布应选取在,(,同等无知,无偏爱)取值范围内的均匀
11、分布,即:,这种看法被称为贝叶斯假设。,说明:贝叶斯假设在很多情况下都是合理的。,41,2.,应用贝叶斯假设时所出现的问题,(1),当,的取值范围为无限区间时,就无法在,上定义一个,正常,的均匀分布。,定义,3.1,设总体,Xf(x|),,,。若,的先验分布,(),满足下列条件:,()0,,且,由此决定的后验密度,(|x),是正常的密度函数,则称,(),为,的广义先验密度。,(2),贝叶斯假设不满足变换下的不变性。,42,二、位置,-,尺度参数族的无信息先验,定义:设密度函数中有两个参数,与,,且密度具有下述形式:,其中,f(x),是一个完全确定的函数,它相应于,=0,,,=1,时的密度,,称
12、为位置参数,,称为尺度参数,这类分布族称为位置,-,尺度参数族。如正态分布、指数分布、均匀分布等都属于这一类。,特别,=1,时称为位置参数族,而,=0,时称为尺度参数族。,43,(,一,),位置参数的无信息先验,定理,:位置参数族的先验分布可用贝叶斯假设作为无,信息先验分布。,证明:设总体,X,的密度具有形式,p(x-),,其样本空间,与参数空间均为实数集。对,X,作一个平移,Y=X+c,,则,Y,的密度具有形式:,p(y-c-),,这相当于对参数,作,一个平移,=+c,,即,Y,的密度形式为,p(y-),,它仍,然是位置参数族的成员,且其样本空间与参数空间没,有发生改变。因此,与,应具有相同
13、的无信息先验分,布。即,()=*(),其中,*(),为,的无信息先验分布。同时,由变换,=+c,可算得,的无信息先验分布为,比较上述两式就可知道,的无信息先验分布是常数。,44,45,例,3.18,设,x,是从正态总体,N(,2,),抽取的容量为,1,的样本,其中,2,已知,,未知,但知其为正,试求参数,的估计。,解:这是一种带约束条件的估计问题,用贝叶,斯方法解决这类问题比较容易。取参数,的无,信息先验分布为(,0,,)上的均匀分布,即:,(,),=I,(,0,,),(,),由此可得后验密度:,若取后验均值作为,的估计,则,:,46,47,(,二,),尺度参数的无信息先验,定理,设总体,X,
14、的密度函数具有形式:,则参数,的无信息先验分布为:,()=1/,,,0,证明:令,Y=cX(c0),同时让参数也作同比例变化,,即定义,=c,,不难算出,Y,的密度函数为 仍然属,于尺度参数族。且,X,与,Y,的样本空间相同,此时,的无信息先验,(),与,的无信息先验,*(),应相同,即:,()=*(),另一方面,由变换,=c,可以得的无信息先验为:,48,若令,(1)=1,,则,()=1/,,,0,它还是一个非正常先验。,比较上述两式得:,49,50,三、使用杰弗莱原则确定先验分布,贝叶斯假设中的一个矛盾是:如果对参数 选用均匀分布,那么当 的函数 作为参数时,也应该选用均匀分布作为先验分布
15、然而由 服从均匀分布这一前提,往往导出 不是均匀分布,反之也一样。,杰弗莱为了克服这一矛盾提出了选取先验的不变原理。并被称为杰弗莱原则或杰弗莱准则。,51,1.,确定无信息先验的更一般方法,(Jeffreys(1961):,设,x,=(x,1,x,2,x,n,),是来自密度函数,p(x|,),的一个 样本,,为,p,维参数向量,则可用费希尔信息阵的平方根作为,的无信息先验分布。,2.,寻求分布的一般步骤:,(1),写出样本的对数似然函数:,52,(2),求样本的信息阵:,特别在单参数的情形:,(3),的无信息先验密度为:,其中,detI(,),表示,pp,阶信息阵,I(,),的行列式。,53,例,1,设,x=(x,1,x,2,x,n,),服从多项分布,其中 求,(,1,2,m,),的无信息先验分布,.,54,55,例,2,设,x=(x,1,x,2,x,n,),是来自正态分布,N(,2,),的一个样本。试求参数向量,(,),的,Jerfreys,先验。,56,例,3,设,为成功概率,则在,n,次独立试验中成功次数,X,服从二项分布,即:,试求参数,的,Jerfreys,先验。,57,58,3.5 多层先验,一、多层先验,二、多层模型,59,60,61,






