ImageVerifierCode 换一换
格式:PPTX , 页数:56 ,大小:1.04MB ,
资源ID:6058990      下载积分:14 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/6058990.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(贝叶斯分类.pptx)为本站上传会员【人****来】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

贝叶斯分类.pptx

1、单击此处编辑母版文本样式,第二级,单击此处编辑母版标题样式,数据挖掘:朴素贝叶斯分类,王成(副教授),华侨大学计算机科学与技术学院,1.概率论基本知识,确定事件:概念是确定的,发生也是确定的;,随机事件:概念是确定的,发生是不确定的;,模糊事件:概念本身就不确定。,随机变量,随机变量:随机事件的数量表示;,离散随机变量:取值为离散的随机变量;,连续随机变量:取值为连续的随机变量;,频率和概率,(,概率的频率学派解释,),频率:试验在相同的条件下重复,N,次,其中,M,次事件,A,发生,则,A,发生的频率为:,f,N,(A)=M/N,;,概率:当,N,很大时,频率会趋向一个稳定值,称为,A,的

2、概率:,联合概率和条件概率,联合概率,:设,A,,,B,是两个随机事件,,A,和,B,同时发生的概率称为联合概率,记为:,P(A B),;,条件概率,:在,B,事件发生的条件下,,A,事件发生的概率称为条件概率,记为:,P(A|B),;,乘法定理,:,P(A|B)=P(AB)/P(B),。,概率密度函数,概率分布函数,:设,X,为连续型随机变量,定义分布函数;,F(x)=P(X,x),;,概率密度函数:,给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(a P(C,2,|X),则实例X属于C,1,,否则属于C,2,。,简单的说,就是去计算在X出现的情况下,X,属于哪种类别的

3、概率更高,。,如何计算P(Ci|X)?,朴素贝叶斯分类(Naive Bayes),假设有n个类别C,1,C,2,.C,n,,给定一个实例的特征向量,w,,则此实例属于类C,i,的概率为,P(Ci)的计算:,将训练样本中属于类C,i,的实例数量除以训练样本数量即P(C,i,),,例如动物图片识别中,假设有100个训练实例,其中有15张为猫,则,P(猫)=15/100=0.15,P(w)的计算:,因为利用贝叶斯进行分类时,我们只要比较概率的大小即可,,而P(w)对于所有的类别都是一样的,因此无须计算,朴素贝叶斯分类(Naive Bayes),假设有n个类别C,1,C,2,.C,n,,给定一个实例的

4、特征向量,w,,则此实例属于类C,i,的概率为,P(w|C,i,)的计算:,w,是特征向量,若将其展开,则可将,P(w|C,i,),写作,P(w,0,w,1,w,2,.w,n,|C,i,),朴素贝叶斯假设实例的各个属性互相独立,互不影响,,因此,上式等价于,P(w,0,|C,i,)P(w,1,|C,i,)P(w,2,|C,i,).P(w,n,|C,i,),朴素贝叶斯分类(Naive Bayes),假设有n个类别C,1,C,2,.C,n,,给定一个实例的特征向量,w,,则此实例属于类C,i,的概率为,P(w|C,i,)的计算:,P(w|C,i,)=P(w,0,|C,i,)P(w,1,|C,i,)

5、P(w,2,|C,i,).P(w,n,|C,i,),假设一个实例的特征向量为(有四条腿,会飞),即w,0,=有四条腿,w,1,为会飞,共有三个类别分别是鸟、狗、鱼,则,P(w,0,|C,0,)=P(有四条腿|鸟),=,训练样本中有四条腿的鸟(实例)的数量,除以样本中鸟(实例)的数量,P(w,1,|C,0,)=P(,会飞|鸟)=训练样本中会飞的鸟(实例)的数量,除以样本中鸟(实例)的数量,P(w,0,w,1,|C,0,)=P(w,0,|C,0,),*,P(w,1,|C,0,),P(有四条腿,会飞,|鸟),=,P(有四条腿|鸟),*,P(,会飞|鸟),朴素贝叶斯(Naive Bayes),朴素贝叶

6、斯假设,所有属性之间,都是,互相独立的,,这也正是算法名称中“朴素(naive)”一词的由来,但现实中,属性之间往往存在依赖,,但有意思的是,即使是在朴素贝叶斯算法的独立性假设明显不成立的情况下,它也仍然能得到非常好的分类结果,C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Nave Bayes,CART,十大数据挖掘算法之一,朴素贝叶斯分类举例,年龄,收入,学生,信用,买了电脑,30,高,否,一般,否,40,中等,否,一般,是,40,低,是,一般,是,40,低,是,好,否,30-40,低,是,好,是,30,中,否,一般,否,40,中,是,一

7、般,是,40,中,否,好,否,共14个训练实例。,共两个类别,“会买电脑”和不会买电脑。,每个训练实例有4个属性。,待分类实例:,(年龄30,收入中等,是学生,信用一般),他会买电脑吗?,朴素贝叶斯分类举例,年龄,收入,学生,信用,买了电脑,30,高,否,一般,否,40,中等,否,一般,是,40,低,是,一般,是,40,低,是,好,否,30-40,低,是,好,是,30,中,否,一般,否,40,中,是,一般,是,40,中,否,好,否,计算P(C,i,),本例中C,0,为未买电脑,C,1,为买了电脑,P(未买电脑)=,P(买了电脑)=,5/14=0.357,9/14=0.643,P(w)不用算,朴

8、素贝叶斯分类举例,年龄,收入,学生,信用,买了电脑,30,高,否,一般,否,40,中等,否,一般,是,40,低,是,一般,是,40,低,是,好,否,30-40,低,是,好,是,30,中,否,一般,否,40,中,是,一般,是,40,中,否,好,否,计算P(w|未买电脑),w=(年龄30,收入中等,是学生,信用一般),P(w|Ci),=P(w,0,|C,i,),*,P(w,1,|C,i,),*,P(w,2,|C,i,),*,P(w,3,|C,i,),P(年龄30|未买电脑)=,3/5=0.600,P(收入中等|未买电脑)=,2/5=0.400,P(是学生|未买电脑)=,1/5=0.200,P(信用

9、一般|未买电脑)=,2/5=0.400,P(w|未买电脑),=,P(w|C,0,)P(C,0,),=P(w|未买电脑)*P(未买电脑),=0.019*0.357=0.007,0.6*0.4*0.2*0.4=0.019,朴素贝叶斯分类举例,年龄,收入,学生,信用,买了电脑,30,高,否,一般,否,40,中等,否,一般,是,40,低,是,一般,是,40,低,是,好,否,30-40,低,是,好,是,30,中,否,一般,否,40,中,是,一般,是,40,中,否,好,否,计算P(w|买了电脑),w=(年龄30,收入中等,是学生,信用一般),P(w|Ci),=P(w,0,|C,i,),*,P(w,1,|C

10、i,),*,P(w,2,|C,i,),*,P(w,3,|C,i,),P(年龄30|买了电脑)=,2/9=0.222,P(收入中等|买了电脑)=,4/9=0.444,P(是学生|买了电脑)=,6/9=0.667,P(信用一般|买了电脑)=,6/9=0.667,P(w|买了电脑),=,P(w|C,1,),*,P(C,1,),=P(w|买了电脑)*P(买了电脑),=0.044*0.643=0.028,0.222*0.444*0.667*0.667=0.044,朴素贝叶斯分类举例,年龄,收入,学生,信用,买了电脑,30,高,否,一般,否,40,中等,否,一般,是,40,低,是,一般,是,40,低,是

11、好,否,30-40,低,是,好,是,30,中,否,一般,否,40,中,是,一般,是,40,中,否,好,否,P(w|C,0,),*,P(C,0,),=P(w|未买电脑)*P(未买电脑),=0.019*0.357=0.007,P(w|C,1,),*,P(C,1,),=P(w|买了电脑)*P(买了电脑),=0.044*0.643=0.028,P(不买电脑|w),=P(C,0,|w)=P(w|(C,0,)P(C,0,)/P(w),=0.007/P(w),P(会买电脑|w),=P(C,1,|w)=P(w|C,1,),*,P(C,1,)/P(w),=0.028/P(w),w=(年龄30,收入中等,是学生

12、信用一般),问题,1,:零概率问题,年龄,收入,学生,信用,买了电脑,30,高,否,一般,否,40,中等,否,一般,是,40,低,是,一般,是,40,低,否,好,否,30-40,低,是,好,是,30,中,否,一般,否,40,中,是,一般,是,40,中,否,好,否,计算P(w|未买电脑),w=(年龄30,收入中等,是学生,信用一般),P(年龄30|未买电脑)=,3/5=0.600,P(收入中等|未买电脑)=,2/5=0.400,P(是学生|未买电脑)=,0,/5=,0,P(信用一般|未买电脑)=,2/5=0.400,P(w|未买电脑),=,P(w|C,0,)P(C,0,),=P(w|未买电脑)

13、P(未买电脑)=,0,0.6*0.4*,0,*0.4=,0,问题,1,:零概率问题的解决方案:拉普拉斯校准,校准前,概率可能为0,校准后,概率接近原概率,但不会变成0,其中N为属性值个数,问题,1,:零概率问题的解决方案:拉普拉斯校准,年龄,收入,学生,信用,买了电脑,30,高,否,一般,否,40,中等,否,一般,是,40,低,是,一般,是,40,低,否,好,否,30-40,低,是,好,是,30,中,否,一般,否,40,中,是,一般,是,40,中,否,好,否,计算P(w|未买电脑),w=(年龄30,收入中等,是学生,信用一般),P(年龄30|未买电脑)=3/5=0.600,P(收入中等|未买

14、电脑)=2/5=0.400,P(是学生|未买电脑)=,0,/5,=,0,P(信用一般|未买电脑)=2/5=0.400,P(年龄30|未买电脑)=(3+1)/(5+,4,)=0.,444,P(收入中等|未买电脑)=(2+1)/(5+,4,)=0.,333,P(是学生|未买电脑)=,(,0,+1)/(5+,4,)=0.2,22,P(信用一般|未买电脑)=(2+1)/(5+,4,)=0.,333,拉普拉斯校准,问题,2,:溢出问题,P(w|Ci),=P(w,0,|C,i,)*P(w,1,|C,i,)*P(w,2,|C,i,)*P(w,3,|C,i,),等式右边分子中各概率的值,可能很小,而很小的数再

15、相乘,可能会导致浮点数溢出,对等式右边的分子求对数,进而将概率相乘转换为相加:,注:log(a*b)=log(a)+log(b),你这样乱改公式,,贝叶斯知道吗?,问题,2,:溢出问题,如果不指明底数,我们默认底数为2。,y=log(x)为增函数,若 P(a)P(b),则,log(P(a)p(w1|x)时决策为w2,对观测值x有 p(w1|x)概率的错误率,R1:做出w1决策的所有观测值区域,条件错误概率为p(w2|x),R2:条件错误概率为p(w1|x)。因此平均错误率p(e)可表示成,在R1内任一个x值都有p(w2|x)p(w1|x),在R2区内任一个x值都有p(w1|x)p(w2|x)错

16、误率在每个x值处都取小者,因而平均错误率p(e)也必然达到最小,这就证明了按(2-2)式作出的决策,其平均错误率为最小。,p(e)也可以(2-8)式写成,错误率为图中两个划线部分之和,对应的错误率区域面积为最小。,2.2基于最小风险的贝叶斯决策,但是错误率最小并不一定是一个普遍适用的最佳选择,一个与损失有关联的,更为广泛的概念风险,观测样本x实属类别j,而被判为状态i时所造成的损失,,Ri则表示了观测值x被判为i类时损失的均值,分类则依据Ri,(i=1,.,c)中的最小值,即最小风险来定。,例:病理切片,w1表示病理切片正常,w2表示病例切片异常,p(w1|x)与p(w2|x)分别表示了两种可

17、能性的大小,定义,:,自然状态:指待识别对象的类别,状态空间:由所有自然状态所组成的空间,决策:不仅包括根据观测值将样本划归为哪一类别(状态),还可包括其他决策,如拒绝等,决策空间:有所有决策组成的空间,最小风险贝叶斯决策步骤,根据贝叶斯公式计算出后验概率:,利用计算出的后验概率及决策表,计算出采取a1,i=1,.,a的条件风险,找出使条件风险最小的决策ak,即,例2,条件风险,两类决策方法之间的关系,基于最小错误率的决策是基于最小风险决策的一个特例,设损失函数为,式中假定对c类只有c个决策,既不考虑“拒绝”等其他情况,(2-17)表明,当作出正确决策(即i=j)时没有损失,而对于任何错误决策,其损失均为1。这样定义的损失函数成为01损失函数。,两类决策方法之间的关系,根据(2-14)式条件风险为,最小错误率贝叶斯决策就是0-1损失函数条件下的最小风险贝叶斯决策,图2.4,图2.3 与图2.4,总结,条件概率,贝叶斯公式,朴素贝叶斯分类算法,防止零概率:拉普拉斯校准,浮点数溢出:对概率求对数,决策风险:,最小风险贝叶斯分类器,谢谢!,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服