收藏 分销(赏)

朴素贝叶斯分类PPT参考课件.ppt

上传人:快乐****生活 文档编号:10010608 上传时间:2025-04-17 格式:PPT 页数:48 大小:349.49KB
下载 相关 举报
朴素贝叶斯分类PPT参考课件.ppt_第1页
第1页 / 共48页
朴素贝叶斯分类PPT参考课件.ppt_第2页
第2页 / 共48页
朴素贝叶斯分类PPT参考课件.ppt_第3页
第3页 / 共48页
朴素贝叶斯分类PPT参考课件.ppt_第4页
第4页 / 共48页
朴素贝叶斯分类PPT参考课件.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,朴素贝叶斯,Naive Bayes,重庆大学软件信息服务工程实验室 余俊良,1,1.,定义,A,B,AB,条件概率,若 是全集,,A,、,B,是其中的事件(子集),,P,表示事件发生的概率,则,为事件,B,发生后,A,发生的概率。,2,乘法定理,注:当,P(AB),不容易直接求得时,可考虑利用,P(A),与,P(B|A),的乘积或,P(B),与,P(A|B),的乘积间接求得。,3,乘法定理的推广,4,1.,集合(样本空间)的划分,二、全概率公式,5,2.,全概率公式,全概率公式,6,图示,证明,化整为零,各

2、个击破,7,说明,全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的,可加性,求出最终结果,.,8,例,1,有一批同一型号的产品,已知其中由一厂生产的占,30,%,二厂生产的占,50,%,三厂生产的占,20,%,又知这三个厂的产品次品率分别为,2,%,1,%,1,%,问从这批产品中任取一件是次品的概率是多少,设事件,A,为“任取一件为次品”,解,9,由全概率公式得,30,%,20,%,50,%,2,%,1,%,1,%,A,B1,B2,B3,10,贝叶斯公式,11,Bayes,公式的意义,假设导致事件,A,发生的“原因”有,B,i,(i

3、1,2,n),个。它们互不相容。,现已知事件,A,确已经发生,了,若要估计它是由“原因”,B,i,所导致的概率,则可用,Bayes,公式求出,.,即可从结果分析原因,.,12,证明,乘法定理:,13,例,2,贝叶斯公式的应用,14,解,15,(1),由全概率公式得,(2),由贝叶斯公式得,16,17,由以往的数据分析得到,的,概率,叫做,先验概率,.,而在得到,信息之后再重新加以修正的概率,叫做,后验概率,.,先验概率与后验概率,18,贝叶斯分类,贝叶斯分类器是一个统计分类器。它们能够预测类别,所属的概率,,如:一个数据对象属于某个类别的概率。贝叶斯分类器是,基于贝叶斯定理,而构造出来的。,

4、对分类方法进行比较的有关研究结果表明:简单贝叶斯分类器(称为基本贝叶斯分类器)在分类,性能上与决策树和神经网络都是可比的,。,在处理大规模数据库时,贝叶斯分类器已表现出较高的分类准确性和运算性能。,19,20,贝叶斯分类,定义:,设,X,是类标号未知的数据样本。设,H,为某种假定,如数据样本,X,属于某特定的类,C,。对于分类问题,我们希望确定,P(H|X),,即给定观测数据样本,X,,假定,H,成立的概率。贝叶斯定理给出了如下计算,P(H|X),的简单有效的方法,:,P(H),是先验概率,或称,H,的先验概率,。,P(X|H),代表假设,H,成立的情况下,观察到,X,的概率。,P(H|X),

5、是后验概率,,或称条件,X,下,H,的后验概率。,20,21,贝叶斯分类,先验概率泛指一类事物发生的概率,,通常,根据历史资料或主观判断,未经实验证实所确定的概率。,而,后验概率,涉及的是,某个特定条件,下一个具体的事物发生的概率,21,22,贝叶斯分类,例如:,P(x1)=0.9:,细胞为正常细胞的概率,0.9,(先验概率),P(x2)=0.1:,细胞为异常细胞的概率,0.1,(先验概率),对某个具体的对象,y,,,P(x1|y,),:,表示,y,的细胞正常的概率是,0.82,(,后验概率,),P(x2|y,),:,表示,y,的细胞异常的概率是,0.18,(,后验概率,),22,朴素贝叶斯分

6、类,朴素贝叶斯分类的工作过程如下:,(1),每个数据样本用一个,n,维特征向量,X,=,x,1,,,x,2,,,,,x,n,表示,分别描述对,n,个属性,A,1,,,A,2,,,,,A,n,样本的,n,个度量。,(2),假定有,m,个类,C,1,,,C,2,,,,,C,m,,给定一个未知的数据样本,X,(即没有类标号),分类器将预测,X,属于,具有最高后验概率(条件,X,下)的类,。也就是说,朴素贝叶斯分类将未知的样本分配给类,C,i,(,1,i,m,)当且仅当,P,(,C,i,|,X,),P,(,C,j,|,X,),,对任意的,j,=1,,,2,,,,,m,,,j,i,。这样,最大化,P,(

7、C,i,|,X,),。其,P,(,C,i,|,X,),最大的类,C,i,称为,最大后验假定,。根据贝叶斯定理,23,24,朴素贝叶斯分类,(3),由于,P,(,X,),对于所有类为常数,,只需要,P,(,X,|,C,i,)*,P,(,C,i,),最大即可。,如果,C,i,类的先验概率未知,则,通常假定这些类是等概率的,,,即,P,(,C,1,)=,P,(,C,2,)=,P,(,C,m,),,因此问题就转换为对,P,(,X,|,C,i,),的最大化(,P,(,X,|,C,i,),常被称为给定,C,i,时数据,X,的似然度,而使,P,(,X,|,C,i,),最大的假设,C,i,称为,最大似然假设

8、否则,需要最大化,P,(,X,|,C,i,)*,P,(,C,i,),。注意,类的先验概率可以用,P(,C,i,)=,s,i,/,s,计算,其中,s,i,是类,C,i,中的训练样本数,而,s,是训练样本总数。,24,25,朴素贝叶斯分类,(4),给定具有许多属性的数据集,计算,P,(,X,|,C,i,),的开销可能非常大。为降低计算,P,(,X,|,C,i,),的开销,可以做,类条件独立的朴素假定。,给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样,联合概率分布,25,26,朴素贝叶斯分类,(5),对未知样本,X,分类,也就是对每个类,C,i,,计算,P(,X,

9、C,i,)*P(,C,i,),。,样本,X,被指派到类,C,i,,当且仅当,P(,C,i,|,X,)P(,C,j,|,X,),,,1,j,m,,,j,i,,换言之,,X,被指派到其,P(,X,|,C,i,)*P(,C,i,),最大的类,。,26,“,打网球”的决定,No.,天气,气温,湿度,风,类别,1,晴,热,高,无,N,2,晴,热,高,有,N,3,多云,热,高,无,P,4,雨,适中,高,无,P,5,雨,冷,正常,无,P,6,雨,冷,正常,有,N,7,多云,冷,正常,有,P,No.,天气,气温,湿度,风,类别,8,晴,适中,高,无,N,9,晴,冷,正常,无,P,10,雨,适中,正常,无,

10、P,11,晴,适中,正常,有,P,12,多云,适中,高,有,P,13,多云,热,正常,无,P,14,雨,适中,高,有,N,27,No.,天气,气温,湿度,风,类别,1,晴,热,高,无,N,2,晴,热,高,有,N,3,多云,热,高,无,P,4,雨,适中,高,无,P,5,雨,冷,正常,无,P,6,雨,冷,正常,有,N,7,多云,冷,正常,有,P,No.,天气,气温,湿度,风,类别,8,晴,适中,高,无,N,9,晴,冷,正常,无,P,10,雨,适中,正常,无,P,11,晴,适中,正常,有,P,12,多云,适中,高,有,P,13,多云,热,正常,无,P,14,雨,适中,高,有,N,实例,统计结果,天气

11、温度,湿度,有风,打网球,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,28,统计结果,天气,E1,温度,E2,湿度,E3,有风,E4,打网球,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/

12、5,凉,3/9,1/5,对下面的情况做出决策:,天气,温度,湿度,有风,打网球,晴,凉,高,是,?,29,统计结果,天气,E1,温度,E2,湿度,E3,有风,E4,打网球,D,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,对下面的情况做出决策:,天气,温度,湿度,有风,打网球,晴,凉,高,是,?,模型:,决策:,?,贝叶斯公式:,E,为第二个表中的取值、分别计算,D=yes/no,

13、的概率,30,统计结果,天气,E1,温度,E2,湿度,E3,有风,E4,打网球,D,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,对下面的情况做出决策:,天气,温度,湿度,有风,打网球,晴,凉,高,是,?,31,已经计算出:,同理可计算:,利用公式:,最后得到:,决策:,32,天气,E1,温度,E2,湿度,E3,有风,E4,打网球,D,P,N,P,N,P,N,P,N,P,N,晴,2

14、/9,3/5,热,2/9,2/5,高,3/9,5/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,0/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,对下面的情况做出决策:,天气,温度,湿度,有风,打网球,云,凉,正常,是,?,33,利用朴素贝叶斯对文档分类,为了对文档进行分类,首先我们需要把文档进行向量化,而组成这个向量的分量,通常是一个文档集合中重要的关键词。,Bag of words,,也叫做“词袋”,在信息检索中,,Bag of words model,假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,

15、或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。,34,利用朴素贝叶斯对文档分类,将多个文档转换成一个词袋矩阵后,即可通过朴素贝叶斯方法对文档进行分类。,足球,高考,航母,基金,量子,分类,1,0,0,0,0,体育,0,0,0,0,0,娱乐,0,0,0,0,1,科技,0,1,0,0,1,教育,0,0,0,1,0,财经,0,0,1,0,0,军事,35,扩展:,使用,0,1,方式表达的词袋模型虽然简单,但它并不能表达出不同词语的重要性,因此在信息检索领域,,TF-IDF,模型更常用。,36

16、TF,(定义),关键词在该文档中出现的次数除以该文档的总字数。我们把这个商称为“关键词的频率”,或者,单文本词频,(,term frequency,TF,),对关键词的次数进行归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。),37,TF,(举例),短语“原子能的应用”可以分成三个关键词:原子能、的、应用,在某个一共有,1000,词的文档中,其中“,原子能,”、“,的,”和“,应用,”分别出现了,2,次、,35,次和,5,次,那么它们的词频就分别是,0.002,、,0.035,和,0.005,。我们将这三个数相加,其和,0.042,就是相

17、应文档和查询“原子能的应用”的“,单文本词频,”,38,TF,(概括),因此,度量文档和查询的相关性,有一个简单的方法,就是直接使用各个关键词在文档中出现的,总词频,具体地讲,,如果一个查询包含,N,个关键词,w,1,w,2,.,w,N,它们在一个特定文档中的词频分别是:,TF,1,TF,2,.,TF,N,。那么,这个查询和该文档的,相关性,就是:,TF,1,+,TF,2,+,.,+,TF,N,。,39,TF,(漏洞),由上例可知:,词“,的,”占了总词频的,80%,以上,而它对确定文档的主题几乎没有用处,这种词叫“,停止词,”,也就是说,在度量相关性时不应考虑它们的频率,忽略这些停止词后,上

18、述文档和查询的相关性就变成了,0.007,,其中“,原子能,”贡献了,0.002,,“,应用,”贡献了,0.005,在汉语中,“,应用,”是个很通用的词,而“,原子能,”是个很专业的词,后者在相关性排名中比前者重要。因此,我们需要给汉语中的每一个词给一个,权重,。,40,权重(设定条件),这个权重的设定必须满足下面两个条件:,一个词预测主题的能力越强,权重就越大,反之,权重就越小。在文档中看到“,原子能,”这个词,或多或少地能了解文档的主题。而看到“,应用,”一词,则对主题基本上还是一无所知。因此,“原子能“的权重就应该比“应用”大,停止词的权重应该是零。,41,权重(概括),很容易发现,如果

19、一个关键词只在很少的文档中出现,通过它就容易锁定搜索目标,它的权重也就应该大。反之,如果一个词在大量文档中出现,看到它仍然不很清楚要找什么内容,因此它的权重就应该小,概括地讲,假定一个关键词,w,在,D,w,个文档中出现过,那么,D,w,越大,,w,的权重越小,反之亦然,42,IDF,(逆向文件频率),在信息检索中,使用最多的权重是“,逆文本频率指数,”(,Inverse document frequency,缩写为,IDF,),它的公式为,log,(,D,/,D,w,)其中,D,是全部文档数。,比如,假定中文文档数是D=10亿,停止词“,的,”在所有的文档中都出现,即Dw=10亿,那么它的,

20、IDF,=,log,(,10,亿/,10,亿)=,log,(,1,)=,0,假如专用词“,原子能,”在,200,万个文档中出现,即,D,w,=200万,则它的权重,IDF,=,log,(,500,)=,8.96,又假定通用词“,应用,”,出现在五亿个文档中,它的权重,IDF,=,log,(,2,)则只有,1,43,TF-IDF,也就只说,在文档中找到一个“原子能”的命中率相当于找到九个“应用”的命中率,利用,IDF,,上述相关性计算的公式就由词频的简单求和变成了,加权求和,,即,TF,1,*,IDF,1,+,TF,2,*,IDF,2,+.+,TF,N,*,IDF,N,在上面的例子中,该文档和“

21、原子能的应用”的相关性为,0.0161,,其中“原子能”贡献了,0.0126,,而“应用”只贡献了,0.0035,。这个比例和我们的直觉比较一致了。,44,查询,如果结合文档排名(PageRank)算法,那么给定一个查询,有关文档的综合排名大致由相关性和文档排名的,乘积,决定,45,TF-IDF,值(应用),经常会和余弦相似度(,cosine similarity,)一同使用于向量空间模型中,用以判断两份文件之间的,相似性,比如:,新闻分类,46,新闻分类(找数字),对于一篇新闻中的所有实词,计算出它的,TF-IDF,值,。把这些值按照对应的实词在词汇表的位置依次排列,就得到一个向量,如果单词表中的某个词在新闻中没有出现,对应的值为零,我们就用这个向量来代表这篇新闻,并成为新闻的,特征向量,。每一篇新闻都可以对应这样一个特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献,47,新闻分类(相似性),根据,余弦定理,,求出特征向量之间的夹角,夹角在,0,度到,90,度之间,两向量夹角的余弦等于,1,时,也就是夹角为,0,,两条新闻完全,相同,:,当夹角的余弦接近,1,时,两条新闻,相似,,从而可以归成一类,夹角的余弦越小,夹角越大,两条新闻,越不相关,当两个向量正交时(,90,度),夹角的余弦为,0,,说明两篇新闻根本没有相同的主题,它们,毫不相关,48,

展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服