ImageVerifierCode 换一换
格式:PPT , 页数:34 ,大小:575KB ,
资源ID:12590859      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/12590859.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(数据仓库与数据挖掘课件1-(13).ppt)为本站上传会员【精****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

数据仓库与数据挖掘课件1-(13).ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,二十世纪末以来,全球信息量以惊人的速度急剧增长,据估计,每二十个月将增加一倍。许多组织机构的,IT,系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但,无法发现,数据中存在的,关系和规则,,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,,数据挖掘技术,应运而生并显示出强大的生命力。,Why?,Why?数据挖掘的社会需求,数据挖掘,数据库越来越大,有价值的知识,可怕的数据,数据挖掘是八十年代投资AI研究项目失败后

2、AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。,1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。,随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。,概述,不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。,所

3、有企业面临的一个,共同问题,是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像,从矿石中淘金,一样,数据挖掘也由此而得名。,数据挖掘系统,矿山(数据),挖掘工具(算法),金子(知识),数据挖掘与传统数据分析方法区别,(1)数据挖掘的数据源与以前相比有了显著的改变;,数据是海量的;数据有噪声;,数据可能是非结构化的;,(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那

4、些,不能靠直觉发现的,信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。,在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。,数据挖掘与传统数据分析方法区别,技术角度的定义,数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,与

5、数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。,这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,数据挖掘定义,商业角度的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。,简言之,数据挖掘其实是一类深层次的数据分析方法。因此,,数据挖掘,可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其

6、模型化的有效方法。,数据挖掘的演化,进化阶段,商业问题,支持技术,产品厂家,产品特点,数据搜集(60年代),“过去五年中我的总收入是多少?”,计算机、磁带和磁盘,IBM,CDC,提供历史性的、静态的数据信息,数据访问(80年代),“在新英格兰的分部去年三月的销售额是多少?”,关系数据库(RDBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft,Oracle、Sybase、Informix、IBM、Microsoft,在记录级提供历史性的、动态数据信息,数据仓库;决策支持(90年代),“在新英格兰的分部去年三月的销售额是多少?波士

7、顿据此可得出什么结论?”,联机分析处理(OLAP)、多维数据库、数据仓库,Pilot、Comshare、Arbor、Cognos、Microstrategy,在各种层次上提供回溯的、动态的数据信息,数据挖掘(正在流行),“下个月波士顿的销售会怎么样?为什么?”,高级算法、多处理器计算机、海量数据库,Pilot、Lockheed、IBM、SGI、其他初创公司,提供预测性的信息,数据挖掘与其他科学的关系,数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。,此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和

8、归纳逻辑等等领域关系密切。,国外研究现状,IEEE,的,Knowledge and Data Engineering,会刊率先在,1993,年出版了,KDD,技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。,此外,在,Internet,上还有不少,KDD,电子出版物,其中以半月刊,Knowledge Discovery Nuggets,最为权威(,Email Club,等。,国外研究现状,自,1989,年,KDD,术语出现以来,由美国人工智能协会主办的,KDD,国际研讨会已经召开了,10,次

9、以上,规模由原来的专题讨论会发展到国际学术大会。而亚太地区也从,1997,开始举行,PAKDD,年会。,国内研究现状,与国外相比,国内对,数据挖掘,的研究起步稍晚,但发展势头强劲。,1993,年,国家自然科学基金首次资助复旦大学对该领域的研究项目。,目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。,发展趋势,近年来,数据挖掘的研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。,例如,,1998,年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有,30,多家软件公司展示了他们的数据挖掘软件产品,不少

10、软件已在北美、欧洲等国得到应用。,数据挖掘系统的典型结构,功能,1.概念/类别描述,(,Concept/Class Description,),概念,/,类别描述是指对数据集做一个简洁的总体性描述并,/,或描述它与某一对照数据集的差别。,例1:我们收集移动电话费月消费额超出,1000,元,的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:,35,50,岁,有工作,月收入,5000,元,以上,拥有良好的信用度,;,功能,2.关联分析,(,Association Analysis,),从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性值条件元组。,例如:关联规则,

11、X=Y,所表达的含义是满足,X,的数据库元组很可能满足,Y,。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。,功能,3.分类与估值,(Classification and Estimation),分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(,IF-THEN,),决策树或者数学公式,乃至神经网络。,估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。,功能,4.聚类分析,(,Clustering Analysis,),聚类分析又称为“同质分组”或者“无监督

12、的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。,好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。,功能,5.时间序列分析,(,Time-Series,Analysis,),时间序列分析即预测(,Prediction,),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。,功能,6.其它功能,包括:偏差分析(,Deviation Analysis,)、孤立点分析(,Outl

13、ier Analysis,)等。,随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。,展望,未来的热点应用领域,网站的数据挖掘(Web site data mining),生物信息或基因的数据挖掘,文本挖掘(Textual mining),多媒体挖掘,网站的数据挖掘(Web site data mining),当前Internet上各类电子商务网站风起云涌,电子商务业务的竞争比传统的业务竞争更加激烈。客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可,电子商务环境下客户保持比传统商业更加困难。若想在竞争中生存进而获胜,您必须比竞争对手更了解客户。电子商务网站每天都可能有上百

14、万次的在线交易,生成大量的记录文件(Log files)和登记表,如何对这些数据进行分析和挖掘,及时地了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加竞争力,几乎变得势在必行。,网站的数据挖掘(Web site data mining),就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。,生物信息或基

15、因的挖掘,生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。,对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法方面,都要复杂得多。从分析算法上讲,更需要一些新的和高效的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。,文本挖掘(Textual mining),文本挖掘是人们关心的另外一个话题。

16、例如,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和数据挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正实现语义上的分析功能。,多媒体挖掘(Multimeadia Mining),基于描述的检索系统,基于图像的描述创建索引并实现对象检索,如关键字、标题、尺寸和创建时间等;,人工实现则极为费时、费力;,自

17、动实现则往往结果不理想。,基于内容的检索系统,支持基于图像内容的检索,例如颜色、质地、形状、对象及小波变换,总结,数据仓库(DW),是利用数据资源提供决策支持,。,在数据仓库中利用多维数据分析来,发现问题,,并,找出产生的原因,。能从大量历史数据中,预测未来。,数据挖掘(DM),是从数据中,挖掘出信息和知识,。,数据的特征,大容量,POS,数据(某个超市每天要处理高达,2000,万笔交易),卫星图象(,NASA,的地球观测卫星以每小时,50GB,的速度发回数据),互联网数据,含噪音(不完全、不正确),异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子),数据仓库、数据挖掘和联机分析处理(OLAP)结合起来,完成支持决策的系统,称为,决策支持系统(DSS)。,数据仓库、数据挖掘、联机分析处理等结合起来的技术称为,商业智能(BI),。商业智能是一种新的智能技术,它区别于人工智能(AI)和计算智能(CI)。,按数据仓库的,形成过程,来讲述它的内容:,从数据库到数据仓库以及对比;,从联机事务处理OLTP到联机分析处理OLAP以及对比,,用它们的对比来突出数据仓库,决策支持,的作用用。,这种讲述,既便利掌握它们的连贯性,又能掌握数据仓 的新特点。,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服