ImageVerifierCode 换一换
格式:PPT , 页数:227 ,大小:937.50KB ,
资源ID:13111875      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/13111875.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(第九章数据挖掘.ppt)为本站上传会员【仙人****88】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第九章数据挖掘.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,主要内容,1.,概述,2.,数据仓库与,OLAP,技术,3.,数据挖掘技术,4.,数据挖掘应用,数据挖掘工具,6.,数据挖掘实例,1,概述,1.1,背景,1.2,数据挖掘定义,1.3,基本概念,1.4,主要功能,1.5,数据挖掘模型,1.6,实现流程,1.7,数据挖掘的应用,1.8,未来趋势,1.1,背景,二十世纪末以来,全球信息量以惊人的速度急剧增长,据估计,每二十个月将增加一倍。许多组织机构的,IT,系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法

2、发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。,1.1,背景,数据挖掘是八十年代投资,AI,研究项目失败后,,AI,转入实际应用时提出的。它是一个新兴的,面向商业应用的,AI,研究。,(,AI(Artificial,Intelligence,,,人工智能,),1989,年,8,月,在美国底特律召开的第,11,届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(,Knowledge Discovery in Database,,,KDD,),这一术语。,随后,在,199

3、1,年、,1993,年和,1994,年都举行,KDD,专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为,KDD,中利用算法处理数据的一个步骤,其后逐渐演变成,KDD,的同义词。,1.1,背景,现在,,人们往往不加区别地使用两者。,KDD,常常被称为数据挖掘(,Data Mining,),,实际两者是有区别的。一般将,KDD,中进行知识学习的阶段称为数据挖掘(,Data Mining,),,数据挖掘是,KDD,中一个非常重要的处理步骤。,数据挖掘是近年来出现的客户关系管理(,Customer Relations

4、hip Manag,e,ment,,,CRM,)、,商业智能(,Business Intelligen,ce,,,BI,),等热点领域的核心技术之一。,1.2,数据挖掘定义,技术角度的定义,数据挖掘(,Data Mining),是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。,这一定义包括好几层含义,:,数据源必须是真实的、海量的、含噪声的,;,发现的是用户感兴趣的知识,;,发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定

5、的发现问题。,1.2,数据挖掘定义,商业角度的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。,简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为,:,按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。,数据挖掘的演化,进化阶段,商业问题,支持技术,产品厂家,产品特点,数据搜集,(60,年代,),“过去五年中我的总收入是多少?”,计算机、磁带和磁盘,IBM,CDC,提供历史性的、静态的数据信息,数据

6、访问,(80,年代,),“在新英格兰的分部去年三月的销售额是多少?”,关系数据库(,RDBMS,),,结构化查询语言(,SQL,),,ODBC Oracle,、,Sybase,、,Informix,、,IBM,、,Microsoft,Oracle、Sybase、Informix、IBM、Microsoft,在记录级提供历史性的、动态数据信息,数据仓库;决策支持,(90,年代,),“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”,联机分析处理(,OLAP,)、,多维数据库、数据仓库,Pilot、Comshare、Arbor、Cognos、Microstrategy,在各种层

7、次上提供回溯的、动态的数据信息,数据挖掘(正在流行),“下个月波士顿的销售会怎么样?为什么?”,高级算法、多处理器计算机、海量数据库,Pilot,、,Lockheed,、,IBM,、,SGI,、,其他初创公司,提供预测性的信息,数据挖掘与其他科学的关系,Data Mining,Database,Technology,Statistics,Other,Disciplines,Information,Science,Machine,Learning,Visualization,数据挖掘与其他科学的关系,数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高

8、性能计算等诸多领域。,此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。,数据挖掘与统计学的关系,近几年,人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员)并不这么认为。,但是,统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。,数据挖掘与传统数据分析方法区别,(,1,)数据挖掘的数据源与以前相比有了显著的改变;,数据是海量的;,数据有噪声;,数据可能是非结构化的;,(,2,

9、传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。,在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了,“,数据坟墓,”,里面的数据几乎不再被访问。也就是说,极有价值的信息被,“,淹没,”,在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。,数据挖掘

10、与传统数据分析方法区别,国外数据挖掘的现状,IEEE,的,Knowledge and Data Engineering,会刊率先在,1993,年出版了,KDD,技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。,此外,在,Internet,上还有不少,KDD,电子出版物,其中以半月刊,Knowledge Discovery Nuggets,最为权威(,Email Club,等。,国外数据挖掘的现状,自,1989,年,KDD,术语出现以来,由美国人工智能协会主办的,KDD,国际研讨会已经召开了,

11、10,次以上,规模由原来的专题讨论会发展到国际学术大会。而亚太地区也从,1997,开始举行,PAKDD,年会。,国内数据挖掘研究现状,与国外相比,国内对,数据挖掘,的研究起步稍晚,但发展势头强劲。,1993,年,国家自然科学基金首次资助复旦大学对该领域的研究项目。,目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。,数据挖掘的发展趋势,近年来,数据挖掘的研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。,例如,,1998,年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有,30,多家软件公司展示了他

12、们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。,数据挖掘的本质,一种深层次的数据分析方法。,数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。,现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。,实施数据挖掘的目的,不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。,所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层

13、分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。,1.3,基本概念,信息,是事物运动的状态和状态变化的,方式。,数据,指一个有关事实,F,的集合(如学生档案数据库中有关学生基本情况的各条记录),用来描述事物有关方面的信息。一般而言,这些数据都是准确无误的。,数据可能存储在数据库、数据仓库和其他信息资料库中。,1.3,基本概念,知识,人们实践经验的结晶且为新的实践所证实的;是关于事物运动的状态和状态变化的规律;是对信息加工提炼所获得的抽象化产物。,知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。,1.3,基本概念,模式,对于集合,F,中的数据,

14、我们可以用语言,L,来描述其中数据的特性,得出一个表达式,E,,,E,所描述的数据是集合,F,的一个子集,FE,。,只有当表达式,E,比列举所有,FE,中元素的描述方法更为简单时,我们才可称之为模式。如:,“,如果成绩在,81-90,之间,则成绩优良,”,可称为一个模式,而,“,如果成绩为,81,、,82,、,83,、,84,、,85,、,86,、,87,、,88,、,89,或,90,,则成绩优良,”,则,不能,称之为一个模式。,1.4,主要功能,1.,概念,/,类别描述,(,Concept/Class Description,),概念,/,类别描述是指对数据集做一个简洁的总体性描述并,/,或

15、描述它与某一对照数据集的差别。,例,1,:我们收集移动电话费月消费额超出,1000,元,的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:,35,50,岁,有工作,月收入,5000,元,以上,拥有良好的信用度,;,1.4,主要功能,例,2,:对比移动电话费月消费额超出,1000,元,的客户群与移动电话费月消费额低于,100,元,的客户群。,利用数据挖掘可作出如下描述:移动电话月消费额超出,1000,元,的客户,80,以上年龄在,35,50,岁之间,且月收入,5000,元,以上;而移动电话月消费额低于,100,元,的客户,60,以上要么年龄过大要么年龄过小,且月收入,2000,元,

16、以下。,1.4,主要功能,2.,关联分析,(,Association Analysis,),从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性值条件元组。,例如:关联规则,X=Y,所表达的含义是满足,X,的数据库元组很可能满足,Y,。,关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。,1.4,主要功能,3.,分类与估值,(,Classification and Estimation,),分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(,IF-THEN

17、决策树或者数学公式,乃至神经网络。,估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。,1.4,主要功能,4.,聚类分析,(,Clustering Analysis,),聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。,相似性可以由用户或者专家定义的距离函数加以度量。,好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。,1.4,主要功能,5.,时间序列分析,(,Time-Series,Analysis,),时间序列分析即预测(,Prediction,),,是指通过对大量时

18、间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。,1.4,主要功能,6.,其它功能,包括:偏差分析(,Deviation Analysis,)、,孤立点分析(,Outlier Analysis,),等。,随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。,1.5,数据挖掘模型,为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了,CRISP-DM,(,Cross Industry Standard Process for Data Mining,),模型,目的是把

19、数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。,CRISP-DM,模型最先在,1996,年被提出,当前的白皮书版本是,1.0,。,CRISP-DM,(,Cross Industry Standard Process for Data Mining,),模型,1.5,数据挖掘模型,CRISP-DM,模型中,数据挖掘包括六个步骤:,1.,业务理解,(,Business Understanding,),阶段,具体地,包括:,确定业务目标,项目可行性分析,确定数据挖掘目标,提出初步的项目计划,1.5,数据挖掘模型,确定业务目标:分析项目的背景,从业务视点分析项目的

20、目标和需求,确定业务角度的成功标准;,项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;,确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;,提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。,1.5,数据挖掘模型,2,数据理解(,Data Understanding,),阶段,具体地,包括:,收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告,;,描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;,探

21、索数据:对数据做简单的统计分析,例如关键属性的分布等;,检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。,1.5,数据挖掘模型,3,数据准备(,Data Preparation,),阶段,具体地,包括:,数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;,数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等;,数据创建:在原有数据的基础上是生成新的属性或记录;,1.5,数据挖掘模型,数据合并:利用表连接等方式将几个数据集合并在一起;,数据格式化:把数据转换成适合数据挖掘处理的格式。,1.5,数据挖掘模型,4,建立模型(,Modeli

22、ng,),阶段,具体地,包括:,选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;,测试方案设计:设计某种测试模型的质量和有效性的机制;,模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型;,模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。,1.5,数据挖掘模型,5,模型评估(,Evaluation,),阶段,具体地,包括:,结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;,过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;,确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始

23、重新开始。,1.5,数据挖掘模型,6,部署(,Deployment,),阶段,具体地,包括:,部署计划:对在业务运作中部署模型作出计划;,监控,和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;,作出,最终报告:项目总结,项目经验和项目结果;,项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。,1.5,数据挖掘模型,为保证项目的可靠性和可管理性,,CRISP-DM,规定一个数据挖掘项目应该产生,11,个报告:,业务理解报告 原始数据收集报告,数据描述报告 数据探索报告,数据质量报告 数据集描述报告,模型训练报告 模型评估报告,部署计划 监控和维护计划,总

24、结报告,通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。,1.6,实现流程,各步骤之间互相影响、反复调整,形成一种螺旋式上升过程。,1.6,实现流程,数据准备,KDD,的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不合适直接在这些数据上进行知识挖掘,需要做一些准备工作,也就数据的预处理。数据预处理包括数据的选择(选择相关数据)、净化(消除噪音、冗余数据)、推测(推算缺值数据)、转换(离散型数据与连续型数据之间的转换)、数据缩减(减少数据量)等。,数据准备是,KDD,的第一个步骤,也是比较重要的一个步骤。数据准备得好坏将直接影响数据挖掘的效率和准确度

25、以及最终模式的有效性。,1.6,实现流程,数据挖掘,数据挖掘是最为关键的步骤,它根据,KDD,的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。,1.6,实现流程,模式的评估、解释,通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定那些是有效的、有用的模式。此外,大部分模式是用数学手段描述的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户。,1.6,实现流程,知识运用,发现知识是为了运用,如何使知识能被运用也是,KDD,的步骤之一。运用知识有两种方法:一种是

26、只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。,KDD,过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。,1.6,实现流程,数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类:,1,)业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。,2,)数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。,3,)数据

27、管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。,1.6,实现流程,从上可见,数据挖掘是一个多领域专家合作的过程,也是一个在资金上和技术上高投入的过程。这一过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。,1.7,数据挖掘的应用,数据挖掘技术的产生本身就有其强烈的应用需求背景,它从一开始就是面向应用的。数据挖掘技术在市场分析、业务管理、决策支持等方面有广泛的应用,是实现,CRM,和,BI,的重要技术手段之一。具体涉及数据挖掘的商业问题有数据库营销(,Database Marketing,)、,客户群体划分,(,Customer Segmentation

28、Classification,)、,背景分析(,Profile Analysis,)、,交叉销售(,Cross-selling,),等市场分析行为,以及客户流失分析,(Churn Analysis),、,客户信用评分,(Credit Scoring),、,欺诈甄别,(Fraud Detection),等,。,当前数据挖掘应用主要集中在电信,(,客户分析,),,零售,(,销售预测,),,农业,(,行业数据预测,),,网络日志,(,网页定制,),,银行,(,客户欺诈,),电力,(,客户呼叫,),,生物,(,基因,),,天体,(,星体分类,),,化工,医药等方面。当前它能解决的问题典 型在于:数据

29、库营销,(Database Marketing),、客户群体划分,(Customer Segmentation&Classification),、背景分析,(Profile Analysis),、交叉销售,(Cross-selling),等市场分析行为,以及客户流失性分析,(Churn Analysis),、客户信用记分,(Credit Scoring),、欺诈发现,(Fraud Detection),等等,在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店,(,),,会发现当你选中一本书后,会出现相关的推荐数目“,Customers who bought this book also

30、 bought”,,这背后就是数据挖掘技术在发挥作用。,1.7,数据挖掘的应用,1.7,数据挖掘的应用,最近,Gartner Group,的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近,Gartner,的,HPC,研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。,1.8,就业领域,数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反 复的

31、过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“,Business First,technique second”,是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数 据挖掘的一大优势。如有销售,财务,机械,制造,,call center,等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色 转变。从,80,年代 末的初露头角到,90,年 代末的广泛应用,以数据挖掘为核心的商业智能,(BI),已经成为,IT,及其它行业中的一个新宠。,数据挖掘就业的途径:,A,

32、做科研,(,在高校、科研单位以及大型企业,主要研究 算法、应用等,),B,:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等),C,:数据分析师(在存在海 量数据的企事业单位做咨询、分析等,),2.,数据挖掘从业人员切入点:,C,,数据分析师:需要有深 厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。从这个方面切入数据挖掘领域需要学习,数理统计,、,概率论,、,统计学习基础:数据挖掘、推理与预测,、,金融数据挖掘,业务建模与数据挖掘,、,数据挖掘实践,等,当然也少不了使用的工具的对应说明书了,如,SPSS,、,SAS,等厂

33、商的,SAS,数据挖掘与分析,、,数据挖掘,Clementine,应用实务,、,EXCEL 2007,数据挖掘完全手册,等。,B,,程序设计开发:主要是实现数据挖掘现有的算法和研发 新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需要熟悉至少一门编程语言如(,C,C+,Java,Delphi,等)和数据库原理和操作,对数据挖掘基础课程有所了 解,读过,数据挖掘概念与技术,(韩家炜著)、,人工智能及其应用,。可以寻找一些开源的数据挖掘 软件研究分析,也可以参考如,数据挖掘:实用机器学习技术及,Java,实现,等一些教程。,A.,做科研:这里的科研相 对来说比

34、较概括,属于技术型的相对高级级别,也是,B,,,C,的归宿,那么相应的也就需要对,B,、,C,的必备基础知识了。,数据采集分析专员,职位介绍:数据采集分析专员的主要职责是把公司运营的数据收集起来,再从中挖 掘出规律性的信息来指导公司的战略方向。这个职位常被忽略,但相当重要。由于数据库技术最先出现于计算机领域,同时计算机数据库具有海量存储、查找迅速、分析半自动化等特点,数据采集分析专员最先出现于计算机行业,后来随着计算机应用的普及扩展到了各个行业。该职位一般提供给懂数据库应用和具有一定统计分 析能力的人。有计算机特长的统计专业人员,或学过数据挖掘的计算机专业人员都可以胜任此工作,不过最好能够对所

35、在行业的市场情况具有一定的了解。,求职建议:由于很多公司追求短期利益而不注重长期战略的现状,目前国内很多企 业对此职位的重视程度不够。但大型公司、外企对此职位的重视程度较高,随着时间的推移该职位会有升温的趋势。另外,数据采集分析专员很容易获得行业经验,他们在分析过程中能够很轻易地把握该行业的市场情况、客户习惯、渠道分布等关键情况,因此如果想在某行创业,从数据采集分析专员干起是一个不错的选择。,市场,/,数据分析师,1.,市场数据分析是现代市场营销科学必不可少的关键环节,:Marketing/Data Analyst,从业最多的行业,:Direct Marketing(,直接面向客户的市场营销,

36、),吧,自,90,年代以来,Direct Marketing,越来越成为公司推销其产品的主要手段。为什么,Direct Marketing,需要这么多,Analyst,呢,?,举个例子,随着商业竞争日益加剧,公司希望能最大限 度的从广告中得到销售回报,他们希望能有更多的用户来响应他们的广告。所以他们就必需要在投放广告之前做大量的市场分析工作。例如,根据自己的产品结合目标市场顾客的家 庭收入,教育背景和消费趋向分析出哪些地区的住户或居民最有可能响应公司的销售广告,购买自己的产品或成为客户,从而广告只针对这些特定的客户群。这样有 的放矢的筛选广告的投放市场既节省开销又提高了销售回报率。但是所有的这

37、些分析都是基于数据库,通过数据处理,挖掘,建模得出的,其间,市场分析师的工作 是必不可少的。,2.,行业适应性强,:,几乎所有的行业都会应用到数据,所以作为一名数据,/,市场分析师可以在政府,银行,零售,医药业,制造业和交通传输等领域服务。,1.8,未来趋势,未来的热点应用领域,网站的数据挖掘(,Web site data mining,),生物信息或基因的数据挖掘,文本挖掘(,Textual mining,),多媒体挖掘,1.8,未来趋势,网站的数据挖掘(,Web site data mining,),当前,Internet,上各类电子商务网站风起云涌,电子商务业务的竞争比传统的业务竞争更加

38、激烈。客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可,电子商务环境下客户保持比传统商业更加困难。若想在竞争中生存进而获胜,您必须比竞争对手更了解客户。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(,Log files,),和登记表,如何对这些数据进行分析和挖掘,及时地了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加竞争力,几乎变得势在必行。,1.8,未来趋势,网站的数据挖掘(,Web site data mining,),就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法

39、和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。,1.8,未来趋势,生物信息或基因的挖掘,生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。,对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分

40、析和建立模型的算法方面,都要复杂得多。从分析算法上讲,更需要一些新的和高效的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。,1.8,未来趋势,文本挖掘(,Textual mining,),文本挖掘是人们关心的另外一个话题。例如,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和数据挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是

41、把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正实现语义上的分析功能。,1.8,未来趋势,多媒体挖掘(,Multimeadia,Mining,),基于描述的检索系统,基于图像的描述创建索引并实现对象检索,如关键字、标题、尺寸和创建时间等;,人工实现则极为费时、费力;,自动实现则往往结果不理想。,基于内容的检索系统,支持基于图像内容的检索,例如颜色、质地、形状、对象及小波变换,主要内容,1.,概述,2.,数据仓库与,OLAP,技术,3.,数据挖掘技术,4.,数据挖掘在电信领域的应用,数据挖掘工具,6.,数据挖掘实例,2,数据仓库与,OLAP,技术,2.1,数据仓库,2.2 ETL,

42、过程,2.3,电信领域数据仓库的设计与实现,2.4,数据仓库的应用,OLAP,2.1,数据仓库与数据库的关系,到目前为止,数据仓库在国外已经发展了十几年的时间。在国内,虽然起步较晚,但发展较为迅速。,目前有很多的大公司或企业正在建或计划建设不同规模的数据仓库和数据集市。,2.1,数据仓库与数据库的关系,数据仓库建立在传统事务型数据库的基础之上,为企业决策支持系统、,OLAP,及数据挖掘系统提供数据源。,2.1,数据仓库与数据库的关系,数据库的应用包括:事务型应用和分析型应用,物理数据库实际存储的数据包括:,事务型数据(或称操作数据)和分析型数据(也可称为汇总数据、信息数据)。,起初,两类数据放

43、到一起,即分散存储在各底层的业务数据库中。,后来,随着企业规模的扩展、数据量的增加、以及希望在决策分析时得到更多支持需求的日益迫切,并且考虑保证原有事务数据库的高效性与安全性。因此将分析型数据与事务型数据相分离,单独存放,即形成了所谓的数据仓库。,2.1,数据仓库与数据库的关系,数据仓库只不过是因为用户需求增加而对某一类数据库应用的一个范围的界定。单就其是数据的存储容器这一点而言,数据仓库与数据库并没有本质的区别。,而且在更多的时候,我们是将数据仓库作为一个数据库应用系统来看待的。,因此,不应该说数据库到数据仓库是技术的进步。,数据仓库与数据库的区别,数据仓库的出现,并不是要取代数据库。目前,

44、大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。,数据库是面向事务的设计,数据仓库是面向主题设计的。,数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。,数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。,数据库与数据仓库的区别,业务数据库,数据仓库,内容,与业务相关的数据,与决策相关的信息,数据模型,关系、层次结构的,关系的,/,多维的,访问,经常是随机的读写操作,经常是只读操作,负载,事务处理

45、量大、但每个事务涉及的记录数较少,查询量少,但每次要查询大量的记录,事务输出量,一般很少,可能非常大,停机时间,可能意味着灾难性错误,可能意味着延迟决策,演变过程,60,年代,数据收集、数据库创建、信息管理系统(,IMS,),和网络数据库管理系统(,Network DBMS,),70,年代,关系数据模型以及关系型,DBMS,演变过程,80,年代至今,高级数据模型,(,具有扩充关系的,面向对象的,演绎的等等,),和 面向应用的,DBMS(,空间的,科学的,工程的等等,),90,年代至今,数据挖掘和数据仓库,多媒体数据库和,Web,数据库,。,演变过程,在,20,世纪,70,年代之前,数据一般存储

46、在文件中,由应用程序直接管理;之后有了简单的数据收集和数据库的构造;后来发展到对数据的管理,包括数据存储、检索以及数据库事务处理;再后来发展到对数据的分析和理解,这时候出现了数据仓库技术和数据挖掘技术。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,并且能够预测未来的数据。,数据库的局限性,传统数据库所能做到的只是对已有的数据进行存取以及简单的查询统计,即使是一些流行的,OLAP,工具,也无非是另一种数据展示方式而已。人们仍然无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。这也直接导致了目前,“,数据爆炸

47、但知识匮乏,”,的现状。,2.2 ETL,过程,2.2.1 ETL,的概念,2.2.2 ETL,的,功能,2.2.3 ETL,的目标,2.2.4 ETL,的流程,2.2.5 ETL,的框架,2.2.6 ETL,的组成,2.2.7 ETL,的相关技术,2.2.8 ETL,的实现方法,2.2.9 ETL,的工具,2.2.10 ETL,的应用,2.2.1 ETL,的概念,将原来业务系统的数据经过抽取、转换、加载到数据仓库所在的中心存储库的过程称为,ETL(Extraction,Transformation and Loading),过程,制定这个过程的策略称之为,ETL,策略,而完成,ETL,过程的

48、工具则是,ETL,工具。相对于数据仓库中的表而言,业务系统数据库中的表称为源表,业务系统数据库称为源数据库,数据仓库中所有的数据都来自于业务系统数据库。在打造一个数据仓库的过程中,,ETL,的实施是一项繁琐、冗长而艰巨的任务,因为它关系到数据仓库中数据的质量问题,如果导入的数据漏洞百出,对决策者来说无疑是个噩耗。,ETL,过程是搭建“数据仓库”时,最重要的,和,最易误解的,步骤之一。,2.2.1 ETL,的概念,ETL,过程不仅仅是数据的,迁移,(Migration),或,净化,(Cleansing),,,也应该是,企业数据管理策略,中不可缺少的一部分。,ETL,过程的功能是:,发现,数据仓库

49、需要的数据,将其从源系统中,抽取,出来,并进行一定的,处理,,然后,装载,到数据仓库中去。,2.2.2 ETL,的,功能,提高数据质量,搭建数据仓库,(Warehousing Processes),操作型活动,(,Operational Activities,),数据获取,(,Data Acquisition,),仓库存储,(,Warehouse Storage,),EAI,的数据集成,ETL,功能提高数据质量,数据清洁,补充缺失值,平滑噪声数据,识别与删除异常数据以及有效解决数据的一致性问题,数据集成,多个数据库、数据立方体或文件的数据整合,数据转换,实现数据的归一化,数据简化,在不影响分析

50、结果的前提下,缩减数据量,数据离散化,对于数值型数据可通过取样实现离散化以降低数据量,2.2.3 ETL,的目标,提高数据质量,提供一种统一的、跨平台的存取数据方法,将数据“信息化”,为企业决策者的经营分析提供信息来源,2.2.4 ETL,的流程,抽取 转换,/,清洁 装载,数据仓库,临时存储区,数据源,抽取,转换,/,清洁,装载,All driven by metadata,2.3,电信领域数据仓库的设计与实现,2.3.1,电信领域数据仓库的设计,2.3.2,电信领域数据仓库的实现,2.3.1,电信领域数据仓库的设计,(,1,)确定数据仓库的主题,根据电信业务和电信运营的需求,电信公司涉及的

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服