你正在下载：《

贝叶斯分类数据挖掘.pptx

》 [预览]

格式：PPTX ，页数：14 ，大小：182.66KB ,
资源ID：6059014 下载积分：8 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/6059014.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（贝叶斯分类数据挖掘.pptx）为本站上传会员【精***】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

贝叶斯分类数据挖掘.pptx

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,6.4,Bayesian Classification,Bayesian Classification,贝叶斯分类是一种统计分类方法。,在贝叶斯学习方法中实用性最高的一种是朴素贝叶斯分类方法。,本节主要介绍贝叶斯的基本理论，和朴素贝叶斯的原理和工作过程，并给出一个具体的例子。,Bayesian Theorem:Basics,设,X,是类标号未知的数据样本。,设,H,为某种假设，如数据样本,X,属于某特定的类,C,。,对于分类问题，我们希望确定,P(X|H),，,即给定观测数据样本,X,，假定,H,成立的概

2、率。贝叶斯定理给出了如下计算,P(X|H),的简单有效的方法：,P(H),：先验概率，或称,H,的先验概率。,P(X/H),:,代表假设,H,成立情况下，观察到,X,的概率。,P(H/X),:,后验概率，或称条件,X,下,H,的后验概率,。,贝叶斯基本理论的例子：,假设数据样本由水果组成，用它们的颜色和形状来描述。并做如下假设：,X,：表示假设红色和圆形的。,H,：表示假设,X,是苹果。则：,P(H/X),反映当我们看到,X,是红色并且是圆形的时候，我们对,X,是苹果的确信程度。从直观上看，,P(H/X),随着,P(H),和,P(H/X),的增长而增长，同时也可以看出,P(H/X),随,P(X

3、),的增加而减小。,这是很合理的，因为如果,X,独立于,H,时被观察到的可能性越大，那么,X,对,H,的支持度越小。,理论上讲，与其所有分类算法相比，贝叶斯分类具有最小的出错率。然而，实践中并非如此。,这是由于对其应用的假设的不准确，以及缺乏可用的概率数据造成的。,研究结果表明，贝叶斯分类器对两种数据具有较好的分类效果：,1.,完全独立的数据。,2.,函数依赖的数据。,Nave Bayes Classification,朴素贝叶斯分类的工作过程如下：,(1).,每个数据样本用一个,n,维的特征向量表示，分别描述对,n,个属性样本的,n,个度量。,(2).,假定,m,个类，给定一个未知的数

4、据样本,X,分类器将预测,X,属于具有最高后验概率的类。也就是说，朴素贝叶斯分类将未知的样本分配给类，当且仅当：,，其中,这样，最大化，其最大的类称为最大后验假定。根据贝叶斯定理：,(3).,由于,P(X),对于所有类为常数，只需要最大即可。如果类的先验概率未知，则通常假定这些类是等概率的，即。,因此问题就转换为对的最大化。,（常被称为给定时数据,X,的似然度，,而使最大的假设称为最大似然假设）。,否则，需要最大化。,注意：,类的先验概率可以用计算，其中是类中的训练样本数，而,s,是训练样本总数。,（,4,）,.,给定具有许多属性的数据集，计算的开销可能非常大。

5、为降低计算的开销，可以做类条件独立的朴素假定。给定样本的类标号，假定属性值相互独立，即在属性间，不存在依赖关系。这样：其中概率可以由训练样本估值。,如果是离散属性，则，其中是在属性上的具有值的类的训练样本数，而是中的训练样本数。,如果是连续值属性，则通常假定该属性服从高斯分布，因而：,是高斯分布函数。,分别为平均值和标准差。,(5).,对于未知样本,X,分类，也就是对每个类，计算。样本,X,被指派到类，当且仅当：,换言之，,X,被指派到其最大的类。,上面的五部就是朴素贝叶斯方法的主要思想，下面用一个具体的例子来说明具体的只用过程。,RID,age,income,s

6、tudent,Credit_rating,Buy_computer,1,30,High,No,Fair,NO,2,30,High,No,Excellent,NO,3,3140,High,No,Fair,Yes,4,40,Medium,No,Fair,Yes,5,40,Low,Yes,Fair,Yes,6,40,Low,Yes,Excellent,No,7,3140,Low,Yes,Excellent,Yes,8,30,Medium,No,Fair,No,9,30,Low,Yes,Fair,Yes,10,40,Medium,Yes,Fair,Yes,11,30,Medium,Yes,Excell

7、ent,Yes,12,3140,Medium,No,Excellent,Yes,13,3140,High,Yes,Fair,Yes,14,40,medium,No,Excellent,no,表,1,样本取值,例,1.,下表给出的训练数据，使用朴素的贝叶斯方法进行分类学习。,数据样本属性用,age,income,student,和,credit_rating,描述。,类标号属性,buys_computer,具有两个不同的值,yes,no,。,设：,对应于类,buys_computer=“yes”,，,对应于类,buys_computer=“no”,。,我们希望分类的未知样本为：,X=(age=“

8、30”,income=“medium”,student=“yes”,credit_rating=“fair”,）,我们希望最大化。每个类的先验概率可以根据训练样本计算：,P(buys_computer=“yes”)=9/14=0.643,P(buys_computer=“no”)=5/14=0.357,我们通过在全部时间基础上观察某事件出现比例来估计概率。,例如，在下例中，估计,P(age,30|buys_computer=“yes”),使用的是比值。,其中,n=9,为所有,30|buys_computer=“yes”,的训练样本。,而是在其中,age,30,的数目。,为计算，我们

9、计算下面的条件概率：,P(age,30|buys_computer=“yes”)=2/9=0.222,P(age,30|buys_computer=“no”)=3/5=0.600,P(income=“medium”|buys_computer=“yes”)=4/9=0.444,P(income=“medium”|buys_computer=“no”)=2/5=0.400,P(student=“yes”|buys_computer=“yes)=6/9=0.667,P(student=“yes”|buys_computer=“no”)=1/5=0.2,P(credit_rating=“fair”|

10、buys_computer=“yes”)=6/9=0.667,P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4,假设条件独立性，使用以上的概率，我们得到：,P(X|buys_computer=“yes”)=0.222 x 0.444 x 0.667 x 0.0.667=0.044,P(X|buys_computer=“no”)=0.6 x 0.4 x 0.2 x 0.4=0.019,P(X|buys_computer=“yes”)*P(buys_computer=“yes”)=0.028,P(X|buys_computer=“no”)*P(buys_computer=“no”)=0.007,因此，对于样本,X,，朴素贝叶斯分类预测,“,buys_computer=yes”,。,THE END,