收藏 分销(赏)

数据仓库与数据挖掘技术教案PPT(1-5章).ppt

上传人:xrp****65 文档编号:13095908 上传时间:2026-01-16 格式:PPT 页数:95 大小:514KB 下载积分:10 金币
下载 相关 举报
数据仓库与数据挖掘技术教案PPT(1-5章).ppt_第1页
第1页 / 共95页
数据仓库与数据挖掘技术教案PPT(1-5章).ppt_第2页
第2页 / 共95页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,E-MAIL:BXXHSSINA.COM,数据仓库与数据挖掘技术,Electronic Commerce,夏火松,E-MAIL:BXXHSSINA.COM,数据仓库与数据挖掘技术教案,第三部分 主要内容讲解,第一章数据仓库与数据挖掘概述,1.,1数据仓库引论1,1.,1.1为什么要建立数据仓库1,1.,1.2什么是数据仓库2,1.,1.3数据仓库的特点7,1.,1.4数据进入数据仓库的基本过程与建立数据仓库的步骤11,1.,1.5分析数据仓库的内容12,1.,2数据挖掘引论13,1.,2.1为什么要进行数据挖掘13,1.,2.2什么是数据挖掘18,1.,2.3数据挖掘的特点21,1.,2.4数据挖掘的基本过程与步骤22,1.,2.5分析数据挖掘的内容26,1.,3数据挖掘与数据仓库的关系28,1.,4数据仓库与数据挖掘的应用31,1.,4.1数据挖掘在零售业的应用31,1.,4.2数据挖掘技术在商业银行中的应用36,1.,4.3数据挖掘在电信部门的应用40,1.,4.4数据挖掘在贝斯出口公司的应用42,1.,4.5数据挖掘如何预测信用卡欺诈42,1.,4.6数据挖掘在证券行业的应用43,思考练习题一44,1.,1.1为什么要建立数据仓库,数据仓库的作用,建立数据仓库的好处,1.1.2,什么是数据仓库,1,数据仓库的概念,W.H.Inmon,在,Building the Data Warehouse,中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。,“,DW,是作为,DSS,基础的分析型,DB,,用来存放大容量的只读数据,为制定决策提供所需的信息。”,“,DW,是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。”,数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。,数据仓库是大量有关公司数据的数据存储。,仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(,consistent,),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(,driver of business reengineering,)。,定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。,数据仓库的定义,综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。,2,与数据仓库相关的几个概念,数据(,data,)是一组表示数量、行动和目标的非随机的可以鉴别的符号,是对客观事物记录下来的,可以鉴别的符号。这些符号包括数字、字符、文字、图形、图像、声音。,操作数据,原子数据,汇总数据,特定查询响应,数据仓库环境,数据类型的分类,元数据是指用来描述数据仓库数据库内容的数据。以后将详细讨论元数据。,数据库是一组内部相关联的数据集合。其中关系数据库是表的集合,每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记录组成。,数据库管理系统(,DBMS,)是用来管理和存取数据库的一组软件。该软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分布的数据访问,数据的一致性和安全性。,数据库系统是一个由硬件、软件、数据库和管理人员组成的复杂系统。随着信息技术不断的发展,对数据处理的技术和人们对数据的需求也在不断的进化,如图,1.2,所示的数据库系统及相关技术的演化。,数据集市(,data marts,)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(,subject data,)。,数据库系统及相关技术的演化,1.1.3,数据仓库的特点,1,主题与面向主题,2,数据仓库数据的集成性,3,数据仓库数据的不可更新性,4,DW,数据的时态性,1.1.4,数据进入数据仓库的基本过程与建立数据仓库的步骤,1,数据进入数据仓库的基本过程,操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。,2,建立数据仓库的步骤,1),收集和分析业务需求;,2),建立数据模型和数据仓库的物理设计;,3),定义数据源;,4),选择数据仓库技术和平台;,5),从操作型数据库中提取、转换和净化数据到数据仓库;,6),选择访问和报表工具;,7),选择数据库连接软件;,8),选择数据分析和数据展示软件;,9),更新数据仓库;,1.1.5,分析数据仓库的内容,操作型数据,分析型数据,细节的,综合的,或提炼的,在存取期间是准确的,代表过去的数据,可更新,不更新,操作需求事先可知道,操作需求事先不知道,生命周期符合,SDLC,完全不同的生命周期(,CLDS,),对性能要求高,对性能要求宽松,一个时刻操作一单元,一个时刻操作一人集合,事务驱动,分析驱动,面向应用,面向分析,一次操作数据最小,一次操作数据量大,支持日常操作,支持管理需求,操作型数据和分析型数据的区别,1.2.1,为什么要进行数据挖掘,1,数据挖掘的作用,数据挖掘解决诸如欺诈甄别(,fraud detection,)、保留客户(,customer retention,)、消除摩擦(,attrition,)、数据库营销(,database marketing,)、市场细分(,market segmentation,)、风险分析(,risk analysis,)、亲和力分析(,affinity analysis,)、客户满意度(,customer satisfaction,)、破产预测(,bankruptcy prediction,)、职务分析(,portfolio analysis,)等业务问题提供了有效的方法。,2,数据挖掘的背景,(,1,)数据挖掘的商业背景,(,2,)数据挖掘的技术背景,(,3,)数据挖掘的社会背景,3,数据挖掘对企业的影响,零售业,业务问题,增加对直接信函(,direct mail,)的响应率,解决方案,销售人员通过数据挖掘建立的预测模型以了解哪些人最有可能对直接信函作出响应,获得的收益,由于将直接信函发送给正确的客户而增加了销售额,保险业,业务问题,减少保险欺诈案件的发生数量,解决方案,业务人员通过数据挖掘建立预测模型识别出哪些赔偿要求最可能具有欺诈性,获得的收益,由于减少欺诈造成的费用而增加了利润,金融业,业务问题,改进预测市场波动的能力,在金融市场建模中得到广泛应用。如何采用神经网络方法提高金融增益和在采用数据挖掘技术建立股票市场模型。,解决方案,金融分析员通过数据挖掘建立预测模型以识别出历史上曾引起过市场被动的因素所具有的模式,获得的收益,由于投资更加准确而增加了收入,1.2.2,什么是数据挖掘,1,数据挖掘概念,定义,1,G.Piatetsky,Shapior,W.J.Frawley,等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。,定义,2,有人简单认为,数据挖掘就是数据库中知识的发现。,定义,3,有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。,定义,4,有人认为,数据挖掘就是从大量数据中提取或挖掘知识。,定义,5 Fayyad,等在“知识发现,96,国际会议上”认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。,定义,6,数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。,综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。,2,数据挖掘的分类,分类标准,类别,按数据挖掘方法的直接性,直接数据挖掘、间接数据挖掘,按数据分析的角度分类,描述式数据挖掘、预测式数据挖掘,按挖掘的数据库分类,关系型、事务型、面向对象型、主动型、空间型、文本型、多媒体、异构数据库,按挖掘的规则类,关联规则、分类规则、聚类规则、趋势分析、偏差分析、模式分析、特征规则、总结规则,按采用的技术分类,模糊和粗集方法、人工神经网络、遗传算法、决策树、最近邻技术、规则归纳、可视化技术,按挖掘知识的抽象层次分类,原始层次、高层次和多层次,按挖掘知识的反映事物之间的性质分类,同类共性广义知识、特征型知识、属性差别知识、关联型知识、预测型知识、离群型知识、,3,与数据挖掘相关的几个概念,1,)直接数据挖掘,利用可用的数据建立一个模型,模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,分类、估值、预言属于直接数据挖掘。,2,)间接数据挖掘,不是选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚集、描述和可视化属于间接数据挖掘。,3,)描述式数据挖掘,以简洁概要的方式描述数据,并提供数据的有意义的一般知识。,4,)预测式数据挖掘,分析数据,建立一个或一组模型,并试图预测新数据集的行为。,3,与数据挖掘相关的几个概念(续),5,)数据库查询工具和数据挖掘工具之间的差异,查询工具能帮助用户从数据库数据中找到新的、有意义的事实。这类问题是查询所要访问的是对象是否在某一特定的位置。这与目前数据库系统中大部分的查询操作是相似的。通过这类问题使你可以确定对象将到达的位置。,6,)信息,7,)知识,(knowledge),8,)数据、信息与知识的转化关系,1.2.3,数据挖掘的特点,1,)处理的数据规模十分庞大;,2,)由于用户不能形成精确的查询要求,因此需要靠,DM,技术来寻找其可能感兴趣的东西;,3,),DM,对数据的迅速变化做出快速响应,以提供决策支持信息;,4,),DM,既要发现潜在规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据更新;,5,),DM,中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。,1.2.4,数据挖掘的基本过程与步骤,1,数据挖掘的基本过程,(,1,)数据准备,数据准备(,data preparation,):本阶段又可进一步细分成数据集成、数据选择和预分析。,(,2,)挖掘,挖掘(,mining,):,DM,处理器(,data mining processor,)综合利用前面提到的多种,DM,方法分析数据。,(,3,)表述,表述(,presentation,):与检验证型工具一样,,DM,将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。,(,4,)评价,评价(,assess,):如果分析人员对分析结果不满意,可以递归地执行上述三个过程,直到满意为止。,2,进行数据挖掘的步骤,(1),问题定义,问题定义主要是指利用数据挖掘可以分析哪些问题。,(2),发现信息,通过数据挖掘分析从其客户那里发现更多的信息。,(3),制定计划,(4),采取行动,(5),监测效果,1.2.5,分析数据挖掘的内容,1,)直销,2,)争取客户,3,)保留客户,4,)交叉销售,5,)趋势分析,6,)欺诈检测,1.3,数据挖掘与数据仓库的关系,用户包括偶然用户(,casual user,)、高级用户(,power user,)和专家(,expert,)。,查询协同管理包括一些访问工具和系统管理工具,为用户访问数据仓库和其他系统提供手段。,数据仓库管理包括安全和特权管理,跟踪数据的更新,数据质量检查,管理和更新元数据,审计和报告数据仓库的使用和状态,删除数据,复制、分割和分发数据,备份和恢复,存储管理。,信息发布系统即把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。,1.4.1,数据挖掘在零售业的应用,超市可以采用两种不同的方式从事信息中介,一种方式是针对匿名客户,另一种是针对注册或有忠诚卡的客户。,(,1,)重心从商品转换到客户,分析特定客户群的购买模式,厂商可以了解特定的客户的购买模型。,(,2,)数据分析,卖主(供应商)可以通过数据挖掘技术来增加商品的利润率,通过竞争成为“种类首领”。,1.4.2,数据挖掘技术在商业银行中的应用,在银行业,数据挖掘主要用于信用欺诈的建模和预测、风险评估、趋势分析、收益分析以及辅助直销活动。,在金融市场,已将神经网络用于股票价格预测、购买权交易、债券等级评定、资产组合管理、商品价格预测、合并和买进以及金融危机预测等方面。,1996,年,,银行系统和技术,评论认为“数据挖掘技术将是本年度金融服务领域最重要的应用。”,在进行数据挖掘的银行包括美国第一银行、,Headland,抵押公司、,FCC,国家银行、联邦住房贷款抵押公司、,Wells Fargo,银行、,NationsBanc,服务公司、,N.A.Mellon,银行、,Advata,抵押公司、化学银行、,Chevy Chase,银行、美国银行公司和,USAA,联邦储蓄银行,1.4.3,数据挖掘在电信部门的应用,1998,年,西部电信用,SAS,的企业挖掘数据产品作为数据挖掘平台,开发了一项企业营销战略系统。,1995,年,9,月,,DEC,公司的,Evan Davies,和,Hossein,Pakraven,提交的一份报告对客户跳槽造成的损失进行了量化,同时他们估计获得一个新客户的费用高达,400,美元。,1.4.4,数据挖掘在贝斯出口公司的应用,贝斯出口公司是英国最大的啤酒出口商。该公司选择了,IBM,的智能挖掘器作为其数据挖掘的商务解决方案。,1.4.5,数据挖掘如何预测信用卡欺诈,对于这一问题可以有下列,3,种解决的途径:,1,)使用查询工具从关系数据库中以适当的格式抽取所需要的信息。采用,Brio,Businee,Objects,及,Congnos,等公司开发的工具将很容易构造出模型。由于用这种方法需要将数据下载到客户端计算机中,所以能够从数据仓库中创建视图来表示将要挖掘的虚拟数据。,2,)通过从关系数据仓库中抽取记录数据,这将会受到一定的限制。,3,)通过构造,SQL,语句以适当格式得到所需的数据。,1.4.6,数据挖掘在证券行业的应用,关于股票预测,市场上有许多采用数据挖掘技术对股票进行预测的软件。如,NETPROPHET,是神经网络应用公司开发的一个股票预测应用软件,它采用了神经网络技术,将输出的结果用两条曲线分别表示实际股票值和预测股票值。,第二章 数据仓库的分析,2.1,影响数据仓库成功的因素,46,2.2,数据仓库的生命周期,47,2.2.1,数据仓库计划与准备阶段,48,2.2.2,数据仓库的其他阶段,54,2.3,数据仓库的基本体系结构,56,2.4,数据仓库的逻辑结构,60,2.4.1,数据仓库中的粒度,60,2.4.2,数据仓库中的数据分割,61,2.4.3,数据仓库中的数据组织,61,2.4.4,数据仓库中的快照,62,2.4.5,数据仓库中的元数据,62,思考练习题二,63,2.1,影响数据仓库成功的因素,特征,操作(事务处理)需要,数据仓库(,DSS,)需要,易变性,动态,静态,通用性,当前的,历史的,时间维,暗指,“现在”明确的,可见的,粒度,原始的,详细的,详细的和可导出的汇总,更新,连续的,随机的,定期的,计划的,任务,可重复的,不可预期的,灵活性,低,高,性能,要求高性能,通常可接受低性能,决策支持系统与事务之间在数据库要求上的差异,影响数据仓库成功的因素,2.2.1,数据仓库计划与准备阶段,1,用户需求分析,2,可行性研究,3,用户的认可,4,建设数据仓库的协调与阻力分析,5,开发项目计划制定,6,创建数据仓库所使用的关键资源,数据仓库的生命周期,2.2.2,数据仓库的其他阶段,1,)系统分析,2,)系统设计(整体设计与详细设计),3,)系统测试,2.3,数据仓库的基本体系结构,客户应用,是供用户访问查询,并以直观方式展示分析结果;,数据仓库,是存储不同程度的数据和元数据;,集成器,是将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中;,监视器,是负责感知数据源发生的变化,并按需求提取数据;,数据源,是为,DW,提供最底层的运作数据库系统及外部数据。,2.4.1,数据仓库中的粒度,2.4.2,数据仓库中的数据分割,数据分割的常用标准:按时间、商业行业、地理位置、组织单位等。这些标准都是由开发人员来选择,且还要选择是在应用层上进行分割,还是在系统层上进行分割。在系统层进行分割在一定程度上是,DBMS,和系统的一种功能。而在应用层分割需要应用程序代码来完成,每年的数据定义既可以相同,也可以不相同,同时从一个处理集转移到另一个处理集没有损失。,2.4.3,数据仓库中的数据组织,数据仓库中有这些数据组织:简单堆积结构、轮转综合数据存储、简单直接文件和连续组织。,2.4.4,数据仓库中的快照,快照是为一些事件的发生而产生的。,本组成形式由,4,个部分组成:键码(,key,)、时间单元、只和关键码相关联的初始数据、与初始数据或关键码无直接关系的二次数据。,2.4.5,数据仓库中的元数据,元数据(,metadata,)是关于数据的数据,对数据的结构、内容、键码、索引等的描述。元数据在操作型的环境中和分析型的环境中具有不同的作用。,元数据是描述数据仓库内数据的结构和建立方法的数据。可按其用途的不同分为两类:技术元数据和商业元数据。,技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。,第三章 数据仓库的设计与实施,3.1,从数据库到数据仓库,64,3.2,面向主题的数据仓库设计,64,3.2.1,数据建模,64,3.2.2,星型连接,65,3.3,开发数据仓库的物理设计,73,3.3.1,数据仓库设计工具的选择,73,3.3.2,物理数据模型设计,74,3.3.3,数据仓库中数据表的数量与规范化,74,3.4,数据仓库的实施,75,3.4.1,数据仓库的实施应注意的问题,75,3.4.2,在实施数据仓库过程中应避免的错误,76,3.4.3,数据仓库项目实施成功的要诀,79,思考练习题三,83,3.1,从数据库到数据仓库,数据库系统,数据仓库系统,数据类型,操作型数据,分析型数据,数据组织方式,面向应用,面向主题,视图机制,虚表存储,只存视图结构,实视图存储,系统开发方法,需求驱动,数据驱动,面向应用,面向,OLTP,应用,面向,OLAP,应用,工具,数据查询、开发,分析和一般查询,功能,复杂,简单,优化,事务处理和访问,系统的决策与分析,索引,有限数量,完善结构,自由空间,需要附加数据空间,无,更新开销,大,无,更新操作,增、删、改频繁,少,3.2.1,数据建模,1,)数据仓库的开发过程,2,)基于开发过程的数据建模型的主要内容,3.2.2,星型连接,3.3.1,数据仓库设计工具的选择,1,数据获取工具的选择,2,数据工具的选择,3.3.2,物理数据模型设计,硬件平台的选择:数据仓库的硬盘容量通常是操作数据库硬盘容量的,23,倍。选择硬件平台时要考虑的问题:是否提供并行的,I/O,?对多,CPU,的支持能力如何?,不同存储介质的特点比较表,存储介质,速度,价格,主存,非常快,非常贵,扩展内存,非常快,贵,高速缓存,非常快,贵,DASD,快,适中,光盘,不慢,不贵,缩微胶片,慢,便宜,3.3.3,数据仓库中数据表的数量与规范化,在数据模型处理过程中,如果程序在很多表中跳转,每次程序从一个表跳到另一个,就要进行,I/O,变换,既要存取数据,又要存取索引找到数据。如果许多程序需要大量的,I/O,时,性能就会受到影响,这就要进行小计。,当数据序列产生的数量是稳定的、按序列存取的,且数据的创建与修改在统计上是以很规律的方式进行的时候,可以采用数据数组。,3.4.1,数据仓库的实施应注意的问题,在数据仓库的实施过程中要考虑以下问题:投资回报率;在具体实施时应自顶向下还是自下到上;在人力资源的问题上要考虑培训还是雇用;在设计上要有前瞻性,把问题覆盖的范围思考大一些,但实施从小处开始。,3.4.2,在实施数据仓库过程中应避免的错误,1,错误项目的发起,2,制订了不可能完成的目标,3,犯政治幼稚病,4,把所有能找到的数据全都放到数据仓库中,5,认为设计数据仓库就是设计事务数据库,6,选择一个面向技术的而不是面向用户的人做数据仓库项目经理,7,只专注内部关系型数据,而忽略外部数据、文本、图像甚至声音、视频数据,8,用交叠的或冲突的数据定义交付数据,9,相信软硬件供应商对性能、能力和可扩展性的承诺,10,相信一旦数据仓库建立起来并开始运行,你的任务就完成了,11,专注于动态生成查询、数据挖掘和定期生成报表,3.4.3,数据仓库项目实施成功的要诀,许多数据仓库项目的指导方针都是成功的。,Anahory,和,Murray,提供了足有,145,组指导方针,所有这些都是为了那些负责数据仓库项目的人而设计的,目的是帮助他们得到成功的结论。,数据仓库专家,Larry Greenfield,已经出版了他关于一个成功数据仓库项目的建议,下面是给仓库建造者的一些建议(,,信息分析的基本技术,4.1,自动信息分析的基本技术,84,4.1.1,智能代理,84,4.1.2,群体智能,87,4.1.3,小波分析,90,4.1.4,分形技术分析,92,4.2,联机分析,93,4.2.1,联机分析,OLAP,的基本术语,95,4.2.2OLAP,体系结构和处理的特性,96,4.2.3OLAP,多维数据结构与,OLAP,的分类,97,4.2.4OLAP,的多维数据分析方法,98,4.2.5OLAP,评价准则,100,4.2.6OLAP,的发展与流行的,OLAP,工具选择,103,4.3Rough,的信息分析技术,104,4.3.1,粗糙集理论的基本概念和理论基础,105,4.3.2,粗糙集在信息分析中的特征表示,106,思考练习题四,109,信息分析技术的不同方面与层次分类,4.1.1,智能代理,智能代理(,Agent,)是一种在计算机网络上无疲劳工作执行重复性、可预料任务的,为人们建立知识的软件包。,智能代理具有长期性、半自动化、参与活动,且具有适应性。,1,智能代理定义,Agent,的设计是用来完成某类任务的,能在一定环境中自主发挥作用、有生命周期的计算实体。,Agent,是一种抽象实体,它能作用于自身和环境,并能对环境做出反映,具有知识、目标和能力。,2,多,Agent,与移动,Agent,多,Agent,是由多个可执行网络计算的,Agent,组成的集合,能对问题求解,能随环境改变而自动修改自己的行为,并能通过网络与其他,Agent,进行通信、交换、合作,协同完成求解同一问题的分布式智能系统。,移动,Agent,是,Agent,与,Internet,技术相结合的产物,它可以自主地在网络上从一台主机移动到另一台主机,根据用户指定的任务进行自动检索、收据和过滤信息,代表用户进行商务活动。,3,建造,Agent,的方法,4.1.2,群体智能,1,蚁群算法,2,多,Agent,分布式的市场营销知识获取结构,多,Agent,分布式市场营销知识获取结构,4.1.3,小波分析,小波变换是一种信号处理技术,它将一个信号分解为不同频率的子波段。在实际工程中,有用信号通常表现为低频信号或是一些比较平稳的信号,而噪声(离群)则通常表现为高频信号。,4.1.4,分形技术分析,分形理论(,fractal theory,)的创始人,Mandelbrot,在,20,世纪,60,年代就应用自相似性和标度不变性,对棉花价格进行了研究。,称集,F,是分形的,是具备如下典型的性质:,1,),F,具有精细的结构,即有任意小比例的不规则的细节;,2,),F,是如此的不规则以至于无论它的整体和局部都不能用微积分或传统的几何语言来描述;,3,),F,通常有某种自相似或自仿射的性质,可能是近似的,也可能是统计近似意义上的;,4,)一般地,F,有“分形维数”(以某种定义),通常严格大于它的拓扑维数;,5,)在大多令人感兴趣情形下,,F,以非常简单的方法,可能由迭代给出定义;,6,),F,通常有“自然”的外貌。,4.2.1,联机分析,OLAP,的基本术语,定义,1 OLAP(,联机分析处理,),是针对特定问题的联机数据访问和分析。通过对信息,(,维数据,),的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。,定义,2 OLAP(,联机分析处理,),是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的,并对真实反映企业数据特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术,(OLAP,委员会的定义,),。,OLAP,的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此,OLAP,也可以说是多维数据分析工具的集合。,4.2.2 OLAP,体系结构和处理的特性,4.2.3 OLAP,多维数据结构与,OLAP,的分类,1,OLAP,多维数据结构,2,OLAP,的分类,4.2.4,OLAP,的多维数据分析方法,1,切片(,slice,),2,切块(,Dice,),3,旋转(,turning,),/,转轴,(pivot),4,钻取,(drill),4.2.5 OLAP,评价准则,准则,1 OLAP,模型必须提供多维概念视图。,准则,2,透明性准则。,准则,3,存取能力准则。,准则,4,稳定的报表性能。,准则,5,客户,/,服务器体系结构。,准则,6,维的等同性准则。,准则,7,动态的稀疏矩阵处理准则。,准则,8,多用户支持能力准则。,准则,9,非受限的跨维操作。,准则,10,直观的数据操纵。,准则,11,灵活的报表生成。,准则,12,非受限维与聚集层次。,4.2.6 OLAP,的发展与流行的,OLAP,工具选择,1,OLAP,的发展,2,流行的,OLAP,工具选择,1,),Hyperion,Essbase,:,2,),Oracle Express,3,),IBM DB2 OLAP Server,4,),Sybase Power dimension,5,),Informix,Metacube,4.3.1,粗糙集理论的基本概念和理论基础,知识、划分与等价关系,信息表、不可分辨关系和基本集,粗糙集的下、上近似及边界区,4.3.2,粗糙集在信息分析中的特征表示,定义,4,设,U,是论域,,=,1,2,m,是对象集,,,,中任何对象所具有的特征所组成的集合,称为特征集(,property set,):,T,=,t,1,t,2,t,n,。这些特征可由如下的“属性,-,值”表示:,t,=(,a,v,),。由特征集构成的表,称之为特征表,第五章 数据挖掘过程,5.1,数据挖掘的方法与基本流程,110,5.1.1SEMMA,方法,110,5.1.2,数据挖掘的基本流程,111,5.2,确定主题和定义数据挖掘任务,112,5.2.1,确定主题,113,5.2.2,定义数据挖掘任务,115,5.3,数据预处理,115,5.3.1,数据的收集和准备,116,5.3.2,数据清理(,data cleaning,),,116,5.3.3,数据集成(,data integration,),118,5.3.4,数据变换(,data transformation,),119,5.3.5,数据归约(,data reduction,),119,5.3.6,微软数据转换服务(,DTS,),120,5.4,数据挖掘的模型建立与理解,120,5.4.1,关于模型的准确性,123,5.4.2,关于模型的可理解性,123,5.4.3,关于模型的性能,124,5.4.4,描述和可视化,124,5.4.5,验证与评估,125,5.5,数据挖掘中常见的一些问题,127,5.5.1,商业用户提出的问题,127,5.5.2,技术问题,127,5.5.3,数据挖掘应用问题,127,5.5.4,实施数据挖掘项目考虑的问题,128,5.5.5,数据挖掘对社会的影响,有关隐私问题,128,5.6,事先无法预测的有价值知识,129,思考练习题五,130,5.1.1,SEMMA,方法,SAS,的,Enterprise Miner,中包含了一个可以影射为,SEMMA,方法的分析流图,SAS,的,SEMMA,方法即抽样(,sample,)、探索(,explore,)、修改(,modify,)、模型,(model),和评价,(assess),等英文头的缩写,它是由一个过程流图驱动的,5.1.2,数据挖掘的基本流程,5.2,确定主题和定义数据挖掘任务,首先确定与任务相关的数据,即我想挖掘什么数据集,确定数据挖掘研究的范围,即想挖掘什么类型的知识,什么背景知识在这里可能有用,哪些度量可以用来评估模式的兴趣度,5.2.1,确定主题,保持力控制、风险预测、收益率分析、数据趋势分析、雇员分析、区域分析、分类、聚类和可视化研究都可作为主题的类型。,5.2.2,定义数据挖掘任务,1,)首先定义与任务相关的数据,即要确定数据选择的条件、数据分组条件、相关属性或维等。要使得挖掘效率高,可建立视图进行挖掘,数据仓库可满足这些条件。,2,)确定与数据挖掘任务相关的知识类型,即从特征化和判别式、关联、分类、预测、聚类和演变分析等中找出一种或几种类型。模式模板,包括元模式(元规则或元查询)可以指导知识的发现过程。,3,)获取一定的背景知识,背景知识是正确的作出概念分层和用户对数据保持联系。概念分层包括模式分层、集合分组分层、操作导出的分层和基于规则的分层。,4,)度量与数据挖掘任务相关的模式兴趣度:兴趣度度量包括评估模式的简洁性(如规则长度)、确定性(置信度)、实用性(支持度)和新颖性。,5.3.1,数据的收集和准备,数据的收集和准备是开展数据挖掘的最大障碍。,数据准备一般包含两方面:,从多种数据源中去综合数据挖掘所需要的数据,保证数据质量的综合性、易用性和时效性,这有可能要用到数据仓库的思想和技术;,如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。,5.3.2,数据清理(,data cleaning,),数据清理要解决如下的一些问题:,(,1,)数据质量,(,2,)冗余数据,(,3,)过时数据,(,4,)术语定义的变化,数据清洗将会使数据集产生哪些问题,1,)一致性问题,2,)失效数据的清洗问题,3,)印刷错误的清洗问题,4,)数值缺失,5,)数据导出,5.3.3,数据集成(,data integration,),数据集成的关键是获取数据,如访问数据仓库。通过如下几种方法访问数据:,1,)通过基于事务的关系数据库或基于,PC,的数据库访问数据,2,)通过数据转换工具访问数据,3,)用查询工具访问数据,4,)从平面文件中访问数据,5.3.4,数据变换(,data transformation,),数据变换就是将数据进行规范化和聚集。,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。常用的方法有平滑(包括分箱、聚类和回归)来去掉噪声数据;,聚集来对数据进行汇总;数据概化使用高层次概念替换低层次“原始”数据来进行概念分层;规范化将属性数据按比例缩放,使之落入一个小的特定区间;属性构造(特征构造)来帮助提高精度和对高维数据结构的理解。,5.3.5,数据归约(,data reduction,),数据归约通过聚集、删除冗余特性或聚类等方法来压缩数据。,常用的方法,:,数据立方体聚集,维归约,数据压缩,数值归约,离散化,概念分层产生,5.3.6,微软数据转换服务(,DTS,),微软数据转换服务(,microsoft,data,transformaton,serverics,,,DTS,)是一个从不同的数据源收集数据的重要工具。,DTS,是一个面向批处理的程序。包(,package,)是基本的,DTS,单元,,DTS,对象包含在包中。包的,4,种对象类型包括:数据连接、,DTS,任务、数据转换和工作流。,DTS,的内容包括:,COM,对象集合,其中每一个对象完成一项特定的任务;,OLE DB,数据连接的中心;工作流程开发平台和应用开发环境。,5.4,数据挖掘的模型建立与理解,数据挖掘中的各种方法,:,1,)概要统计(,summary statistics,),2,)关联度分析(,find dependencies,),3,)聚类分析(,cluster,),4,)线性回归是最常用的统计分析方法,5,)市场货篮分析(,market basket analysis,),6,)分类分析(,classify,),7),近邻预测(,nearest neighbor,),8,)神经网络预测,神经网络,(neural networks),9),决策树分析(,dcision,tree,DT,),10,)规则分析(,find laws,)算法,5.4.1,关于模型的准确性,由数据挖掘工具产生的模型一般可通过时间来检验其有多大程度的准确性,但是如果模型的准确性受到政府法令的限制并且必须是经过验证的,则就有必要综合地使用几种不同的数据挖掘方法。例如,,HNC,公司数据挖掘产品,Falcon,在侦测信用卡欺诈方面是一个很好的工具。但它并没有在信用卡贷款审批中得到广泛使用,其原因是受到了政府规章的限制。,5.4.2,关于模型的可理解性,可供考虑的因素:,首先,模型是否可以使我们了解输入对结果会产生什么作用?,其次,模型是否可以使我们了解预测为什么会成功或失败?,第三,模型是否可以使我们对复杂的数据集产生预测的结果?,第四,模型是否能对其产生的结果进行检测?,5.4.3,关于模型的性能,对模性的性能考虑可以分为两个方面:,一是你需要以什么速度构造出模型;,二是你需要以什么速度从模型中获得预测结果。,5.4.4,描述和可视化,描述和可视化(,description and visualization,),是通过规则、表、报告、图表、图像、判定树和数据立方体下钻或上卷等形式对数据挖掘的结果进行表示的方式。,图形可以帮助人们更好的理解原始数据。通过在地图上面叠加产品的销量来显示产品的销量情况。同时,也可用颜色表示各个地方的销量,以标识销量最大的区域。,树形可视化工具以层次化互连节点的方式表示数据,从而展示出这些数据的数量和关系特征。,5.4.5,验证与评估,1,验证,评价模型应考虑以下几方面的问题:第一,用与建立模型相同的数据集对模型进行评价比用不同的数据集对其进行评价会获得更好的结果;第二,模型的某些预测结果会比其他预测结果更加准确;第三,由于模型以样例数据为基础建立的,应具有好的结果。,2,评估,虽然不同的数据挖掘方法分类、聚类、可视化和关联分析等方法都汇集在数据挖掘算法下,但它们的确存在着很大的区别。数据挖掘从人工智能领域借鉴了很多东西,既然人工智能技术的种类繁多,我们也就不难理解存在众多不同数据挖掘方法的原因了,。,5.5,数据挖掘中常见的一些问题,商业用户提出的问题,技术问题,数据挖掘应用问题,实施数据挖掘项目考虑的问题,数据挖掘对社会的影响,有关隐私问题,5.6,事先无法预测的有价值知识,1,)其他候选结果:我们除了想要知道模型将会预测出什么结果之外
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服