ImageVerifierCode 换一换
格式:PPT , 页数:46 ,大小:255.50KB ,
资源ID:13095702      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/13095702.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(数据仓库与数据挖掘.ppt)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

数据仓库与数据挖掘.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据仓库与数据挖掘,日常生活的问题:,人们在日常生活中经常会遇到这样的情况:,超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;,保险公司想知道购买保险的客户一般具有哪些特征;,医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助;,企业面临的问题,经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据,它是企业生产经营活动的真实记录,由于缺乏集中存储和管理,这些数据不能为本企业加以利用,不能进行有效的统计、分析及评估,无法将这些

2、数据转换成企业有用的信息,数据爆炸:,自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中。,我们会淹死在数据中,但却为信息、知识所饿,!,面临的问题,如何使企业或组织在激烈的市场竞争中保持对客户的吸引力?,如何预先发现和避免企业运作过程中不易察觉的商业风险?,如何在堆积如山的企业交易数据中发现具有商业价值的闪光点?,不同层次的信息处理需求,事物处理需求,分析处理需求,事务处理需求(,OLTP,),不同的事务处理子系统,采购子系统:,订单、订单细则、供应商,销售子系统:,顾客、销售,库存子系统:,出库领料单、进料入库单、库存台帐,人事子系统:,员工、部门,各

3、种事务处理需求,一笔订购、一笔销售、一次进料、一次出料,要求,强调多用户并发环境,数据的一致性、完整性,分析处理需求,(,OLAP,),今年销售量下降的因素(时间、地区、商品、销售部门),某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?,要求,多个子系统中的数据(数据集成),历史数据,汇总、综合的数据,随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:,提供决策支持,数据库 数据仓库,数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(,OLTP

4、应用和以分析处理为主的决策支持系统,(DSS),应用共存于一个数据库系统时,就会产生许多问题(混乱现象)。,例如,事务处理应用一般需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。,人们逐渐认识到直接用事务处理环境来支持,DSS,是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离(不能都在一个数据库环境中)。必须把分析型数据从事务处理环境中提取出来,按照,DSS,处理的需要进行重新组织,建立单独的分析处理环境。,数据仓库技术正是为了构建这种新的分析处理环境而出

5、现的一种,数据存储,和,组织技术。,数据仓库的定义,数据仓库,是一种面向主题的数据管理技术,它提供集成化的、历史的数据管理功能,支持综合性的数据分析,特别是战略分析。,数据仓库构成了,DSS,和,DBMS,的技术基础,它必将推动,DSS,研究的全面发展和方法的实用性化。,通俗的解释,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫作数据仓库。,特征及体系结构,数据仓库的特征,数据仓库的体系结构,数据仓库的体

6、系结构,一个完整的数据仓库结构一般由,6,个基本层次组成,1),数据源层。,2),数据后端处理层。,3),数据仓库及其管理层,(,包括源数据管理,),。,4),数据集市层。,5),数据仓库应用层,(,或称前端处理层,),。,6),数据展示层。,数据仓库层次结构示意图,数据展示层,数据仓库应用层,数据集市层,数据仓库及管理层,数据后端处理层,数据源层,数据挖掘,定义:,数据挖掘,(Data Mining,),,就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。,经典案例,尿布与啤酒,在一家超市中,人们发现了一个特别有趣的现象:尿

7、布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。,原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?,数据挖掘能做以下七种分析方法,分类(,Classification,),估计(,Estimation,),预测(,Prediction,),相关性分组或关

8、联规则(,Affinity grouping or association rules,),聚类(,Clustering,),描述和可视化(,Description and Visualization,),复杂数据类型挖掘,(Text,Web,图形图像,视频,音频等,),数据挖掘分类,直接数据挖掘,:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。,间接数据挖掘,:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系,分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘,。,数据挖掘过程和主要步

9、骤,数据挖掘过程简介,(1).,确定业务对象,(2).,数据准备,1),、数据的选择,2),、数据的预处理,3),、数据的转换,(3).,数据挖掘,(4).,结果分析,(5).,知识的同化,数据挖掘的发展前景,当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,,实际应用还远没有普及,。而据,Gartner,的报告也指出,数据挖掘会成为未来,10,年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。,具体发展趋势和应用方向主要有:,对知识发现方法的研究进一步发展,,如对,Bayes,和,Boosting,方法的研究和提高;商业

10、工具软件不断产生和完善,注重建立解决问题的整体系统,例如,Weka,等软件。,数据挖掘的发展应是,挖掘工具,在先进理论指导下的,改进,,而就国内情况而言,还有至少,20,年,的发展空间。,谢谢观赏,决策支持系统,(decision support system,,简称,DSS),是辅助决策者通过数据、模型和知识,以,人机交互方式,进行半结构化或非结构化决策的计算机应用系统。,它是管理信息系统,(MIS),向更高一级发展而产生的,先进信息管理系统,。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者,提高决策水平和质量,。,应具备的特性,效率足够高

11、数据质量可靠,可扩展性,数据仓库的四个主要特征,数据的时变性,数据的非易失性,数据是集成的,面向主题,subject-oriented(,面向主题性,),面向主题,表示了数据仓库中数据组织的基本原则,数据仓库中的数据都是围绕着某一主题组织展开的。例如,企业中的客户、产品、供应商等都可以作为主题看待。,从信息管理的角度看,,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。,从数据组织的角度看,,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。,确定主题,是组织数据仓库

12、中数据的,前提,。,integrated(,数据集成性,),数据仓库的,集成性,是指根据决策分析的要求,将分散于各处的源数据进行,抽取、筛选、清理、综合,等工作,使数据仓库的数据具有集成性。,数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的,数据预处理,,即数据的抽取、筛选、清理、综合等集成工作。,time-variant,数据的时变性,数据仓库的,时变性,,就是数据应该随着时间的推移而变化。,尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据,10,前的数据进行决策分析,那决策所带来的后果

13、将是十分可怕的。,non-volatile,数据的非易失性,数据仓库的,非易失性,是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会,保持一个相当长的时间,。原因是数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。,数据源,数据源是数据仓库的,数据来源,,它是多种,OLTP,系统及外部文件,,一个数据仓库往往可以含多个数据源,这些数据源可以有多种不同数据结构类型,可以有桌面式数据库如,Access,,也可以是对象关系数据库、面向对象数据库,.,同时,数据源也可以包括各种数据文件如,Ex

14、cel,、,Word,以及基于,WWW,的,HTML,、,XML,等文件形式。,数据源一般可以分布于网络的各个结点,通过网络中的数据接口与数据仓库相互连接。,数据后端处理,数据后端处理:数据源中数据经提取、清洗、转换最终成为数据仓库所需的数据。,它的主要工作是为数据仓库提供统一的数据并按阶段及时更新这些数据。,数据后端处理,一个完整的后端处理包括下面,5,个方面,1),数据提取,2),数据清洗,3),数据转换,4),数据加载,5),数据刷新,后端处理,4,个环节的流程图,数据仓库及管理层,1,数据仓库,数据仓库是存储分析与决策数据的实体。它一般以关系结构形式存储,能支持数据共享。,数据仓库及管

15、理,数据仓库管理系统,(,DWMS,)是一种专门于管理数据仓库的软件,包括数据仓库中的数据结构构建;数据操纵;数据维护、控制、数据服务等内容。,其具体功能如下:,(,1,)、,数据仓库数据模式定义,它能定义数据仓库的关系结构,包括数据模式、数据子模式。,数据仓库及管理,(,2,)数据仓库的数据操纵,在数据仓库中能向用户直接提供的只有一种操作,即只读,(,或称查询,),操作。,(,3,)数据仓库的数据控制,数据仓库具有完整性约束控制、数据授权和数据安全以及数据并发控制、故障恢复能力,均与传统数据库类似。,数据仓库及管理,(4),数据仓库的数据服务,数据仓库管理系统提供对数据仓库中数据的多种服务功

16、能,如数据拷贝,转储,性能监测及网络监控等功能。,数据集市,数据集市是一种特殊形式的数据仓库。,数据仓库是面向,整个企业决策,的数据集合,面向多种应用,具有,全局性,;而数据集市则是面向,企业中部门决策,的数据集合,面向特定应用,具有,局部性,;,由此可见,数据集市是由数据仓库,派生,而出,针对特定应用的,规模更小,的,,结构更集中,的决策数据集合体。,数据仓库与数据集市的有效结合可以使数据仓库更能,适应多种应用,的不同需求。,数据仓库应用层,数据仓库应用层又称,前端处理层,。该层主要是以数据仓库为基础的应用。目前,该层主要包括有两种应用:,(1),分析、决策应用,分析、决策应用主要是,归纳型

17、的分析、决策。即是以数据仓库中的数据为对象作归,纳以获得分析、决策的模式,(pattern),或规则,(rule),。,数据仓库应用层,(2),统一平台的建立与应用,除了分析、决策应用外,数据仓库还具有为企业已有的多种平台、多种结构、多种语法语义、多种接口,建立统一数据平台,的功能,并在该平台上建立,企业级应用,。,数据展示层,在数据仓库应用层之上是数据展示层,即是将,应用结果,,特别是分析、决策结果以,多种媒体形式表示,它还可以通过,Web,发布,数据仓库的数据展示具有多种,固定的图板,,即固定的表示形式,而每个图板又有多种不同灵活表现手段。图板的类型有多种不同的,直方图、条状图、饼图、报

18、表、曲线,等。,数据展示层,在,Web,方式下一般,还有安全授权功能以控制结果数据的安全性。,目前市场上有多种数据展示工具,有名的有,BRIO,、,BO,等,当然也可以通过工具以编程方式实现。,OLTP,技术,联机事务处理系统,(OLTP),也称为,面向交易,的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。,最大优点:即输即答,具有实效性。,重要性能指标:系统性能,具体体现 为实时响应时间。,例如民航定票系统和银行,ATM,机是联机事务处理系统。,OLAP,技术,数据仓库是管理决策分析的基础,要有效地利用数据仓库的,信息资源,,必须要有强大的工具对数据仓库的信息进行,分析决策,。,OLAP,,即,On-line Analytical Processing(,在线分析处理或联机分析处理,),,就是一个应用广泛的,数据仓库使用技术,。它可以根据分析人员的要求,迅速灵活地对大量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解,市场的需求,。,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服