ImageVerifierCode 换一换
格式:PPT , 页数:40 ,大小:372.50KB ,
资源ID:12550194      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/12550194.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(数据挖掘中的特征选择.ppt)为本站上传会员【pc****0】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

数据挖掘中的特征选择.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据挖掘中的特征选择,*,数据挖掘中的数据归约问题,*,1,数据挖掘中的特征选择,为什么需要数据挖掘,数据爆炸问题,自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。,我们拥有丰富的数据,但却缺乏有用的信息,数据爆炸但知识贫乏,*,2,数据挖掘中的特征选择,数据挖掘的作用,数据挖掘:,在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束),数据挖掘,是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术,*,3,数据挖掘中的特征选择

2、数据挖掘,数,据,库,越,来,越,大,有价值的知识,海量的数据,*,4,数据挖掘中的特征选择,数据挖掘的应用,数据分析和决策支持,市场分析和管理,客户关系管理,(CRM),,市场占有量分析,交叉销售,目标市场,风险分析和管理,风险预测,客户保持,保险业的改良,质量控制,竞争分析,欺骗检测和异常模式的监测,(,孤立点,),其他的应用,文本挖掘,(,新闻组,电子邮件,文档,),和,Web,挖掘,流数据挖掘,DNA,和生物数据分析,*,5,数据挖掘中的特征选择,数据挖掘,:,数据库中的知识挖掘,(KDD),数据挖掘,知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关

3、数据,选择,数据挖掘,模式评估,*,6,数据挖掘中的特征选择,数据挖掘的步骤,了解应用领域,了解相关的知识和应用的目标,创建目标数据集,:,选择数据,数据清理和预处理,:(,这个可能要占全过程,60,的工作量,),数据缩减和变换,找到有用的特征,维数缩减,/,变量缩减,不变量的表示,选择数据挖掘的功能,数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等,*,7,数据挖掘中的特征选择,选择挖掘算法,数据挖掘,:,寻找感兴趣的模式,模式评估和知识表示,可视化,转换,消除冗余模式等等,运用发现的知识,*,8,数据挖掘中的特征选择,数据挖掘和商业智能,支持商业决策的潜能不断增长,最终用户,

4、商业分析家,数据分析家,DBA,决策支持,数据表示,可视化技术,数据挖掘,信息发现,数据探索,在线分析处理(,OLAP),,多维分析,(MDA,),统计分析,查询和报告,数据仓库,/,数据市场,数据源,论文,文件,信息提供商,数据库系统,联机事务处理系统,(OLTP,),*,9,数据挖掘中的特征选择,典型数据挖掘系统,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,*,10,数据挖掘中的特征选择,数据挖掘,:,多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,*,11,数据挖掘中的特征选择,数据挖掘

5、的分类,预言,(,Predication,):,用历史预测未来,描述(,Description,):,了解数据中潜在的规律,*,12,数据挖掘中的特征选择,数据挖掘的主要方法,分类(,Classification,),聚类,(Clustering),相关规则,(Association Rule),回归,(Regression),其他,*,13,数据挖掘中的特征选择,特征归约在数据挖掘中的作用,因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。,高维的数据集中包含了大量的特征,(,属性,),。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个

6、元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了,“,维灾难,”,(The Curse of Dimensionality),问题。,*,14,数据挖掘中的特征选择,特征选择和特征降维是两类特征归约方法。,*,15,数据挖掘中的特征选择,特征选择,特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。,*,16,数据挖掘中的特征选择,特征选

7、择的过程,(M.Dash and H.Liu 1997),*,17,数据挖掘中的特征选择,特征选择大体上可以看作是一个搜索过程,搜索空间中的每一个状态都可以看成是一个可能特征子集。,搜索的算法分为完全搜索,(Complete),,启发式搜索,(Heuristic),,随机搜索,(Random)3,大类。,*,18,数据挖掘中的特征选择,完全搜索分为穷举搜索与非穷举搜索两类。,(1),广度优先搜索,(BFS),(2),分支限界搜索,(BAB),(3),定向搜索,(BS),(4),最优优先搜索,(Best First Search),*,19,数据挖掘中的特征选择,启发式搜索,(1),序列前向选择

8、SFS),(2),序列后向选择,(SBS),(3),双向搜索,(BDS),(4),增,L,去,R,选择算法,(LRS),(5),序列浮动选择,(Sequential Floating Selection),(6),决策树,(DTM),*,20,数据挖掘中的特征选择,随机算法,(1),随机产生序列选择算法,(RGSS),(2),模拟退火算法,(SA),(3),遗传算法,(GA),*,21,数据挖掘中的特征选择,特征的评价函数,特征的评估函数分为五类:相关性,距离,信息增益,一致性和分类错误率。,常用的有平方距离,欧氏距离,非线性测量,,Minkowski,距离,信息增益,最小描述长度,互信息

9、依赖性度量或相关性度量,一致性度量,分类错误率,分类正确率,*,22,数据挖掘中的特征选择,特征选择方法的模型,一般地,特征选择方法可以分为三种模型,分别是:过滤模型、封装模型和混合模型。,*,23,数据挖掘中的特征选择,过滤模型:,根据训练集进行特征选择,在特征选择的过程中并不涉及任何学习算法。即特征子集在学习算法运行之前就被单独选定。但学习算法用于测试最终特征子集的性能。,过滤模型简单且效率很高。由于过滤模型中的特征选择过程独立于学习算法,这就容易与后面的学习算法产生偏差,因此为了克服这个缺点提出了封装模型。,*,24,数据挖掘中的特征选择,*,25,数据挖掘中的特征选择,基于过滤模型的

10、算法主要有两类:特征权重和子集搜索。,这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价。,*,26,数据挖掘中的特征选择,特征权重算法对每个特征指定一个权值,并按照它与目标概念的相关度对其进行排序,如果一个特征的相关度权值大于某个阈值,则认为该特征优秀,并且选择该特征。该算法缺点在于:他们可以捕获特征与目标概念间的相关性,却不能发现特征间的冗余性。而经验证明除了无关特征对学习任务的影响,冗余特征同样影响学习算法的速度和准确性,也应尽可能消除冗余特征。,Relief,算法是一个比较著名的特征权重类方法。,*,27,数据挖掘中的特征选择,子集搜索算法通过在一定的度量标准指导下

11、遍历候选特征子集,对每个子集进行优劣评价,当搜索停止时即可选出最优(或近似最优)的特征子集。,*,28,数据挖掘中的特征选择,封装模型:,在此模型中,学习算法封装在特征选择的过程中,用特征子集在学习算法上得到的挖掘性能作为特征子集优劣的评估准则。在初始特征空间内进行多次搜索,直至得到最佳的特征子集。,与过滤模型相比,封装模型具有更高的精度,但效率较低,运行速度慢于过滤模型。,*,29,数据挖掘中的特征选择,*,30,数据挖掘中的特征选择,过滤模型与包裹模型的根本区别在于对学习算法的使用方式。,混合模型:,由于过滤模型与封装模型之间的互补性,混合模型把这两种模型进行组合,也就是先用过滤模式进行初

12、选,再用封装模型来获得最佳的特征子集。,*,31,数据挖掘中的特征选择,*,32,数据挖掘中的特征选择,数据降维,数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。,降维方法主要分为两类:线性或非线性。,*,33,数据挖掘中的特征选择,数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。,降维方法主要分为两类:线性或非线性。而非线性降维方法又可分为基于核函数和基于特征值的方法。,*,34,数据挖掘中的特征选择,线性降维方法有:,主成分分析,(PCA),,独立成分分析,(ICA),,线性判别分析,(PCA),,局部特征分析,(LFA),。,*,35,数据挖掘中的

13、特征选择,基于核函数的非,线性降维方法有:,基于核函数的,主成分分析,(KPCA),,,基于核函数,独立成分,(KICA),,,基于核函数的,判别分析,(KLDA),。,基于特征值,(,流形,),的非,线性降维方法有:,ISOMAP(Isometric,feature mapping),,局部线性嵌入,(LLE),,拉普拉斯特征映射,(LE),。,*,36,数据挖掘中的特征选择,成果,结合,LDA,与二分,K,均值聚类的特点,提出了针对高维数据集的自适应聚类方法。利用线性判别分析,(LDA),来实现维归约,然后在低维数据集上执行二分,k,均值聚类来生成类。低维空间的聚类结果又可以通过某种机制构

14、造出原数据集上的类。然后在此基础上再利用,LDA,进行维归约,这个过程反复进行下去,不断地修正前面得到的聚类结果,直到得到全局最优。,*,37,数据挖掘中的特征选择,结合某种基于标准化互信息和遗传算法提出所谓的两阶段特征选择方法。该方法首先采用标准化的互信息对特征进行排序,然后使用排序在前的特征初始化第二阶段遗传算法的部分种群,使得遗传算法的初始种群中含有较好的搜索起点,使遗传算法只采用较小的进化代数就可搜寻到较优的特征子集。,*,38,数据挖掘中的特征选择,设想,结合某种特征选择和智能优化算法研究新型的两阶段特征选择方法。利用已有的特征选择算法得出一个特征子集,从而为智能优化算法提供一个较好的初始的搜索起点,然后利用智能优化算法只采用较小的进化代数就可搜寻到较优的特征子集。,*,39,数据挖掘中的特征选择,*,40,数据挖掘中的特征选择,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服