1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,6.4,Bayesian Classification,Bayesian Classification,贝叶斯分类是一种统计分类方法。,在贝叶斯学习方法中实用性最高的一种是朴素贝叶斯分类方法。,本节主要介绍贝叶斯的基本理论,和朴素贝叶斯的原理和工作过程,并给出一个具体的例子。,Bayesian Theorem:Basics,设,X,是类标号未知的数据样本。,设,H,为某种假设,如数据样本,X,属于某特定的类,C,。,对于分类问题,我们希望确定,P(X|H),,,即给定观测数据样本,X,,假定,H,成立的概
2、率。贝叶斯定理给出了如下计算,P(X|H),的简单有效的方法:,P(H),:先验概率,或称,H,的先验概率。,P(X/H),:,代表假设,H,成立情况下,观察到,X,的概率。,P(H/X),:,后验概率,或称条件,X,下,H,的后验概率,。,贝叶斯基本理论的例子:,假设数据样本由水果组成,用它们的颜色和形状来描述。并做如下假设:,X,:表示假设红色和圆形的。,H,:表示假设,X,是苹果。则:,P(H/X),反映当我们看到,X,是红色并且是圆形的时候,我们对,X,是苹果的确信程度。从直观上看,,P(H/X),随着,P(H),和,P(H/X),的增长而增长,同时也可以看出,P(H/X),随,P(X
3、),的增加而减小。,这是很合理的,因为如果,X,独立于,H,时被观察到的可能性越大,那么,X,对,H,的支持度越小。,理论上讲,与其所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非如此。,这是由于对其应用的假设的不准确,以及缺乏可用的概率数据造成的。,研究结果表明,贝叶斯分类器对两种数据具有较好的分类效果:,1.,完全独立的数据。,2.,函数依赖的数据。,Nave Bayes Classification,朴素贝叶斯分类的工作过程如下:,(1).,每个数据样本用一个,n,维的特征向量 表示,分别描述对,n,个属性 样本的,n,个度量。,(2).,假定,m,个类 ,给定一个未知的数
4、据样本,X,分类器将预测,X,属于具有最高后验概率的类。也就是说,朴素贝叶斯分类将未知的样本分配给类 ,当且仅当:,,其中,这样,最大化 ,其 最大的类 称为最大后验假定。根据贝叶斯定理:,(3).,由于,P(X),对于所有类为常数,只需要 最大即可。如果 类的先验概率未知,则通常假定这些类是等概率的,即 。,因此问题就转换为对 的最大化。,(常被称为给定 时数据,X,的似然度,,而使 最大的假设 称为最大似然假设)。,否则,需要最大化 。,注意:,类的先验概率可以用 计算,其中 是类 中的训练样本数,而,s,是训练样本总数。,(,4,),.,给定具有许多属性的数据集,计算 的开销可能非常大。
5、为降低计算 的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互独立,即在属性间,不存在依赖关系。这样:其中概率 可以由训练样本估值。,如果 是离散属性,则 ,其中 是在属性 上的具有值 的类 的训练样本数,而 是 中的训练样本数。,如果 是连续值属性,则通常假定该属性服从高斯分布,因而:,是高斯分布函数。,分别为平均值和标准差。,(5).,对于未知样本,X,分类,也就是对每个类 ,计算 。样本,X,被指派到类 ,当且仅当:,换言之,,X,被指派到其 最大的类。,上面的五部就是朴素贝叶斯方法的主要思想,下面用一个具体的例子来说明具体的只用过程。,RID,age,income,s
6、tudent,Credit_rating,Buy_computer,1,30,High,No,Fair,NO,2,30,High,No,Excellent,NO,3,3140,High,No,Fair,Yes,4,40,Medium,No,Fair,Yes,5,40,Low,Yes,Fair,Yes,6,40,Low,Yes,Excellent,No,7,3140,Low,Yes,Excellent,Yes,8,30,Medium,No,Fair,No,9,30,Low,Yes,Fair,Yes,10,40,Medium,Yes,Fair,Yes,11,30,Medium,Yes,Excell
7、ent,Yes,12,3140,Medium,No,Excellent,Yes,13,3140,High,Yes,Fair,Yes,14,40,medium,No,Excellent,no,表,1,样本取值,例,1.,下表给出的训练数据,使用朴素的贝叶斯方法进行分类学习。,数据样本属性用,age,income,student,和,credit_rating,描述。,类标号属性,buys_computer,具有两个不同的值,yes,no,。,设:,对应于类,buys_computer=“yes”,,,对应于类,buys_computer=“no”,。,我们希望分类的未知样本为:,X=(age=“
8、30”,income=“medium”,student=“yes”,credit_rating=“fair”,),我们希望最大化 。每个类的先验概率 可以根据训练样本计算:,P(buys_computer=“yes”)=9/14=0.643,P(buys_computer=“no”)=5/14=0.357,我们通过在全部时间基础上观察某事件出现比例来估计概率。,例如,在下例中,估计,P(age,30|buys_computer=“yes”),使用的是比值 。,其中,n=9,为所有,30|buys_computer=“yes”,的训练样本。,而 是在其中,age,30,的数目。,为计算 ,我们
9、计算下面的条件概率:,P(age,30|buys_computer=“yes”)=2/9=0.222,P(age,30|buys_computer=“no”)=3/5=0.600,P(income=“medium”|buys_computer=“yes”)=4/9=0.444,P(income=“medium”|buys_computer=“no”)=2/5=0.400,P(student=“yes”|buys_computer=“yes)=6/9=0.667,P(student=“yes”|buys_computer=“no”)=1/5=0.2,P(credit_rating=“fair”|
10、buys_computer=“yes”)=6/9=0.667,P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4,假设条件独立性,使用 以上的概率,我们得到:,P(X|buys_computer=“yes”)=0.222 x 0.444 x 0.667 x 0.0.667=0.044,P(X|buys_computer=“no”)=0.6 x 0.4 x 0.2 x 0.4=0.019,P(X|buys_computer=“yes”)*P(buys_computer=“yes”)=0.028,P(X|buys_computer=“no”)*P(buys_computer=“no”)=0.007,因此,对于样本,X,,朴素贝叶斯分类预测,“,buys_computer=yes”,。,THE END,






