收藏 分销(赏)

商务智能复习题.pdf

上传人:快乐****生活 文档编号:10409083 上传时间:2025-05-27 格式:PDF 页数:23 大小:1.22MB 下载积分:10 金币
下载 相关 举报
商务智能复习题.pdf_第1页
第1页 / 共23页
商务智能复习题.pdf_第2页
第2页 / 共23页


点击查看更多>>
资源描述
BI-Gracie-1-題型:題型:1、判斷、判斷 10 分分 2、簡答、簡答 30 分分 3、案例分析、案例分析 30 分分 2 題題 4、計算、操作、計算、操作 30 分分第一章(理解)数据、信息与知识的关系 书本图 1.1 p4数据数据数据是可以记录、通信和能识别的符号,它通过有意义的组合来表达现实世界中的某种实体(具体对象、事件、状态或活动)的特征。商务智能技术可以分析结构化数据、半结构化数据以及非结构化数据、静态的历史数据和动态数据流等各种类型的数据。事物运动数据信息记录解释信息:有用的数据一个人的垃圾(数据)是另一个人的财富(信息)Data endowed with relevance and purpose信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。数据是信息的载体,信息是对数据的解释。决策离不开信息同一事物的信息对于不同的个人或群体具有不同的意义。信息的效用在于对决策的影响。高层决策、中层管理、基层运营都要决策。越来越多的人从事与信息有关的工作,信息产业将成为全球最大产业。首席信息官 CIO(Chief Information Officer)成为企业继 CEO、CFO 之后又一重要职位。70%of employee time spent searching for relevant information知识Information from the human mind(includes reflection,synthesis),知识是对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。事实性知识和经验知识(隐性和显性)。洞察力(insight)Requires reflection and synthesisDifficult to structure,capture Often tacitBI-Gracie-2-信息和知识隐藏在数据中商务智能要求有一个坚固、可靠的大型数据库作后盾,建立这样一个数据库的任务是极其艰巨的。数据的质量问题也是令人头疼而又不可以掉以轻心的。虽然数据是宝贵的财富,然而许多公司并不能充分利用这种财富,因为信息隐藏在数据中,并不易识别。为了在竞争中占得优势地位,必须识别和应用隐藏在所收集的数据中的信息。(背诵)王茁专著三位一体的商务智能三位一体的商务智能-商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力(理解)案例分析 商务智能的价值 P11制定合适的市场营销策略 改善顾客智能 经营成本与收入分析 提高风险管理能力 改善业务洞察力 提高市场响应能力 第二章1、数据仓库系统的结构数据仓库系统的结构(商务智能系统的架构)(图会画)(图会画)挖掘BI-Gracie-3-2、数据仓库系统的组成:、数据仓库系统的组成:源数据:源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、HTML 文档等。数据仓库管理系统:数据仓库管理系统:元数据库及元数据管理部件:元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。数据集成部件:该部件根据定义部件的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题数据仓库前端工具集数据仓库前端工具集查询/报表工具:以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。OLAP 工具:通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。数据挖掘工具:从大量数据中挖掘出具有规律性的知识,以及数据之间的内在联系。前端开发工具:提供用户编程接口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。数据仓库数据仓库:在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。BI-Gracie-4-第三章1、事务型处理:、事务型处理:即操作型处理,是指对数据库的联机操作处理 OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。2、分析型处理:、分析型处理:用于管理人员的决策分析,例如 DSS、EIS 和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。3、事务型处理数据和分析型处理数据的区别:、事务型处理数据和分析型处理数据的区别:4、数据仓库的定义数据仓库的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。(重点,要会表述)数据仓库用来保存从多个数据库或其它信息源选取的数据数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用并为上层应用提供统一提供统一 用户接口,完成数据查询和分析。支持整个企业范围的主要业务用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。数据仓库是作为数据仓库是作为 DSS 服务基础的分析型服务基础的分析型 DB,用来存放大容量的只读数据,用来存放大容量的只读数据,为制定决策提供所需要的信息。为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。属性的、面向主题及不可更新的数据集合。以以 1992 年年 W H Inmon 出版出版Building the Data Warehouse为标志,数为标志,数据仓库发展速度很快。据仓库发展速度很快。W H Inmon 被誉为数据仓库之父。被誉为数据仓库之父。W H Inmon 对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳BI-Gracie-5-定的、随时间变化的数据集合,用以支持管理决策的过程。定的、随时间变化的数据集合,用以支持管理决策的过程。面向主题:面向主题:数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。集成性:集成性:数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。稳定性:稳定性:数据仓库内的数据有很长的时间跨度,通常是 5-10 年。数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作.数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库时变性:时变性:时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉 OLTP 数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。例子:6、数据集市、数据集市(理解)数据仓库是企业级的,能为整个企业各部门的运行提供决策支持手段。而数据集市数据集市(Data Mart)是部门级别的,一般只能为某个局部范围内的管理人员服务,也称为部门级BI-Gracie-6-的数据仓库。数据集市可以分为两种类型两种类型:独立型数据集市:独立型数据集市:直接从操作型环境获取数据。为满足特定用户(一般是部门级别的)的需求而建立的一种分析型环境,它能够快速地解决某些具体的问题,而且投资规模也比数据仓库小很多。多个独立的数据集市的累积,是不能形成一个企业级的数据仓库的。从属型数据集市:从属型数据集市:从企业级数据仓库获取数据。如果企业最终想建设一个全企业统一的数据仓库,想要以整个企业的视图分析数据,独立型数据集市恐怕不是合适的选择;也就是说“先独立地构建数据集市,当数据集市达到一定的规模再直接转换为数据仓库”是不合适的。从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定,可以说是数据集市未来建设的主要方向。7、元数据:、元数据:数据仓库的所有数据都要通过元数据来管理和控制。元数据描述关于源数据的说明,包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个 Web 页、哪个外部系统抽取而来。源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程元数据管理器的设计与实现元数据的作用(课本 P41):定义数据仓库的作用,指明数据仓库中信息的内容和位置,刻画数据的抽取和转换规则,存储与数据仓库主题有关的各种商业信息。在客户端提供图形化界面工具。例如,用户想在多维模型中加入一维或者在某一维中加入维元素,不仅可以通过图形化界面工具完成,而且可以在用户自已编写的应用程序中调用应用程序接口函数,修改后的结果将记入元数据库中。然后系统将根据元数据库中的新内容进行数据的追加。8、数据粒度:、数据粒度:(理解)粒度是指 DW 的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级越小;细化程度越低,粒度级就越大。粒度是 DW 设计的主要问题,深深影响存放在 DW 中的数据量的大小,同时影响DW 所能回答的查询类型。高高/低粒度级的区别和平衡低粒度级的区别和平衡 若 DW 空间有限,用高粒度级表示数据效率会比较高,高 粒度级不仅只需要少得多的字节存放数据,而且只需要较 少的索引项。在低粒度级上回答查询的能力比高粒度强,因为在高粒度 级上细节已消失,只有综合数据。在 DSS 处理时,很少对单个事件进行检查。通常是针对某 种数据集合进行处理的,意味着要查阅大量记录。BI-Gracie-7-粒度的双重级别:粒度的双重级别:粒度的权衡是首要的,大量数据使大部分组织在 DW 中需要两个粒度级(不是绝对的)。一家电话公司的一家电话公司的“双重双重”粒度级的设计粒度级的设计粒度的双重级别粒度的双重级别例如:上图显示了一家电话公司的“双重”粒度级的设计,能满足大多数机构的需要。在操作层是大量的细节,其中大部分细节是为了满足结帐系统的需求。多达 30 多天的细节放在这种操作层中。在本例中 DW 包括两类数据:轻度综合数据和“真实档案”细节数据。DW 中的数据能回朔 10 年。从 DW 中提取的数据是流向电话公司不同地区的“地区”数据,然后各个地区可以独立地分析各自的数据。在个体级上进行各自的启发式分析处理。在轻度综合数据库中的数据量要比细节数据库中的数据量少得多。在数据的真实档案层上,存储的所有的细节来自于操作型环境。由于数据量太大,因此有必要将数高高细细节节级级/低低粒粒度度低低细细节节级级/高高粒粒度度一一个个顾顾客客一一个个月月的的每每个个电电话话的的细细节节每每月月40,000个个字字节节每每月月200条条记记录录一一个个顾顾客客一一个个月月的的电电话话综综合合每每月月200个个字字节节每每月月1条条记记录录设设回回答答:“4月月份份人人们们从从厦厦门门打打出出的的长长话话平平均均多多少少个个?”这这个个问问题题既既可可以以在在高高粒粒度度级级上上也也可可以以在在低低粒粒度度级级上上得得到到回回答答,但但显显然然在在不不同同的的粒粒度度级级上上所所使使用用的的资资源源具具有有相相当当大大的的差差别别。BI-Gracie-8-据存放在如磁带这样的介质上。粒度的双重级别粒度的双重级别通过在 DW 的细节级上创建两种粒度级,DSS 设计者可以一举两得。大部分 DSS 处理是针对被压缩的、存取效率高的轻度综合级数据进行的。如果什么时候需要分析更低的细节级,可以到数据的真实档案层。鉴于费用、效率、访问便利和能够回答认可可以回答的查询能力,数据双重粒度级是大多数机构建造 DW 细节级的最好选择。只有当一个机构的 DW 环境中只有相对较少的数据时,才应尝试数据粒度的单一级别。9、操作数据存储、操作数据存储:ODS(理解理解)ODS 是数据仓库体系结构中的一个可选部分,ODS 具备数据仓库的部分特征和 OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。应用:应用:企业级的 OLTP 应用 “企业级 OLTP”:指在实际事务的处理中,常常涉及多个部门的数据,需要通过多个部门的数据协同才能更好的完成任务。建立 ODS 实际上是建立了一个全局数据库,它通过在 ODS 中的记录系统定义和参考表建立一系列 DB 和 ODS 记录间的双向联系,以实现数据在企业级上的同步。ODS 的记录系统说明如何从 DB 中向 ODS 进行数据抽取;DB 中对应的数据项发生的变化,都将反应到相应的 ODS 记录中。参考表建立的是从 ODS 数据项到 DB 数据项的反向映射;当 ODS 中的记录发生变化时,将通过参考表去修改与之相关的 DB 中所有的数据项。ODS全全局局数数据据库库ODS记记录录系系统统的的定定义义ODS参参考考表表数数据据更更新新需需要要反反映映到到所所有有相相关关的的DB上上定定义义在在各各DB上上的的记记录录系系统统数数据据库库A数数据据库库B数数据据库库C(1)(2)(3)各各业业务务数数据据库库BI-Gracie-9-近期的 OLAP 许多中层次的管理人员通常不需要大量历史数据,主要参考近期内的数据,即短时间的OLAP 分析。基于 ODS 的特点,在 ODS 中进行近期的 OLAP 分析是非常合适的选择。在系统中设置一个状态切换开关,使 ODS 系统在操作型环境和分析型环境间进行动态切换。第四章1、什么是、什么是 OLAP?定义 1:OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。定义 2:OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP 委员会的定义)OLAP 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此 OLAP 也可以说是多维数据分析工具的集合。2、OLAP 特性:特性:快速性快速性:用户对 OLAP 的快速反应能力有很高的要求。系统应能在 5 秒内对用户的大部分分析要求做出反应。客户/服务器体系结构两层或三层 C/S 结构。可分析性可分析性:OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析。多维性多维性:多维性是 OLAP 的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性信息性:不论数据量有多大,也不管数据存储在何处,OLAP 系统应能及时获得信息,并且管理大容量信息。3、OLAP 基本概念基本概念(理解)维:维:是人们观察数据的特定角度,是考虑问题时的一类属性(时间维、地理维等)。维的层次:维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)多维数组:多维数组:维和变量的组合表示。一个多维数组可以表示为:(维 1,维 2,维真真实实档档案案轻轻度度综综合合95%甚甚至至更更多多的的DSS处处理理在在此此进进行行5%或或更更少少的的DSS处处理理在在此此进进行行BI-Gracie-10-n,变量)。(时间,地区,产品,销售额)数据单元数据单元(单元格单元格):多维数组的取值。(2000 年 1 月,上海,笔记本电脑,$100000)基于关系数据库的基于关系数据库的 OLAPROLAP用关系表达式描述多维概念大量的关系表。用关系表达式描述多维概念大量的关系表。用星型模型、雪花模型构造维模型。用星型模型、雪花模型构造维模型。DBDW基基础础数据数据元数据元数据计计算算结结果果多多维综维综合引合引擎擎多多维维视图视图SQL存存取取多多维维存存取取RDBMS服服务务器器关系型关系型OLAP服服务务器器 客客户户4、ROLAP 服务器:服务器:定义:定义:表示基于关系数据库的 OLAP 实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP 将多维数据库的多维结构划分为两类表两类表:事实表:事实表:存储数据和维关键字维表:维表:每个维至少使用一个表存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起。维表:维表:是将多维模型映射到关系型模型中,用于记录多维数据库中维度信息,将多维数据立方体的坐标轴上的各个取值记录在一张维表中事实表:事实表:是将多维模型映射到关系模型中,用于记录维度交点处的度量信息的关系表。事实表中除了度量变量外,其余的列都是各个维表的主键,它们都不能为空。这种结构大大的节省存储空间,尤其是涉及多个维且维中具有多个层次时尤为有效。BI-Gracie-11-6、结构:、结构:星型结构雪花模式:是星型模式的变种,有些表是规范化形式,减少冗余,便于维护,节省存储空间,但降低浏览的性能。BI-Gracie-12-事实星座:多个事实表共享维表(数据仓库通常采用事实星座模式)ROLAP 服务器的结构服务器的结构BI-Gracie-13-注:在注:在 ROLAP 中,多维数据立方体并没有真正存在,通常需要在接受客户中,多维数据立方体并没有真正存在,通常需要在接受客户 OLAP 请求后,请求后,ROLAP 服务器需要将服务器需要将 SQL 语句转化为多维存取语句,并利用连接运算拼合出多维数据立语句转化为多维存取语句,并利用连接运算拼合出多维数据立方体,因此方体,因此 ROLAP 的响应时间较长。的响应时间较长。ROLAP 的特点的特点数据结构和组织模式需要预先设计和建立;数据结构和组织模式需要预先设计和建立;数据查询需要进行表连接,在查询性能测试中往往是影响速度的关键;数据查询需要进行表连接,在查询性能测试中往往是影响速度的关键;数据汇总查询(例如查询某个品牌的所有产品销售额)数据汇总查询(例如查询某个品牌的所有产品销售额),需要进行,需要进行 Group by 操作,虽然实际得出的数据量很少,但查询时间变得更长;操作,虽然实际得出的数据量很少,但查询时间变得更长;为了改善数据汇总查询的性能,可以建立汇总表,但汇总表的数量与用户为了改善数据汇总查询的性能,可以建立汇总表,但汇总表的数量与用户分析的角度数目和每个角度的层次数目密切相关。例如,用户从分析的角度数目和每个角度的层次数目密切相关。例如,用户从 8 个角度个角度进行分析,每个角度有进行分析,每个角度有 3 个汇总层次,则汇总表的数目高达个汇总层次,则汇总表的数目高达 3 的的 8 次方。次方。第五章1、数据挖掘、数据挖掘什么是数据挖掘-原由BI-Gracie-14-一个比较正式的数据挖掘的定义定义高层次上的主动式自动发现方法,被称为发现驱动型知识发现。从数据中提取正确的、有用的、未知的和综合的信息并用它进行决策的过程。数据挖掘的相关学科是统计理论、数据库技术和人工智能。前 Business Objects 的 Todd Rowe 曾表示:“从技术上讲,甚至只要有完备的 Excel数据就能用上 BI。”2、数据挖掘过程、数据挖掘过程(理解)3、数据挖掘过程是循环的过程、数据挖掘过程是循环的过程上图会容易造成一个线性过程的印象。事实上,每一步的结果会导致这样一个结论:需要从前几步中得到更多的信息,并不断重复这一过程。这些循环保证了最后的结果是完全为业务量身定制的。数据挖掘过程数据挖掘过程-业务分析业务分析理想化地,公司中的所有活动都在不同程度上通过策略和商业目标与公司的任务描述相关。数据挖掘使你能够比以前在更高的层次上控制你的目标。业务分析涉及到领域专家和挖掘专家。前者专心于规定商业需求,而后者从数据挖掘的观点上保证这些要求的可行性,并且具体说明满足这些要求所需的挖掘操作。数据挖掘过程数据挖掘过程-数据分析数据分析为了研究使用统计方法的数据,可能有必要清理数据,添入缺损的值,或者从几个系统中将数据整合起来。数据分析将会对以后步骤中必须的数据转换提供一个初步的了解,比如数据清理和整合。可能也会指出获取外部的信息是必要的,比如说日常商业运作中并不需要的顾客人口统计数据。在这一步中涉及到的角色是挖掘专家,他们执行大部分的任务,还有数据库管理员,他们将通过提供数据的访问权限来支持这些活动。数据预处理数据预处理 BI-Gracie-15-a.数据预处理数据预处理-数据中的不一致性数据中的不一致性数据挖掘能够有效地处理数据中的不一致性。即使源数据是干净的、整合的和经过验证的,它们仍有可能包含现实世界的不真实的数据。有效认识和解决数据质量相关问题的唯一办法,就是企业对内部处理流程进行监视、分析和报告。美国硬盘生产商 Maxtor 公司的首期信息长官斯考特.海卡尔说“商务智能最大的困难在于需要确保用于总结性分析和仪表板中的最底层的数据永远干净、一致并相关。我们需要数据仓库具备自我治疗能力,能够自动地感应、侦查、通告和维修任何不正确、缺失或未经核对的数据因素。但这至少需要一到两年才会发生b.数据预处理数据预处理-数据清理数据清理原因:现实世界的数据一般是脏的、不完整和不一致的。功能:填充空缺值、识别孤立点、消除噪声、纠正数据不一致。空缺值空缺值忽略元组:当类标号缺少时通常这样做人工填写空缺值:费时,数据集大时可能行不通使用固定值:如 Unknow 或-使用属性平均值使用最有可能值:最常用的方法噪声数据噪声数据噪声是一个测量变量中的随机错误或偏差如何平滑数据,去掉噪声数据平滑技术分箱聚类计算机和人工检查相结合回归分箱分箱箱的深度:表示不同的箱里有相同个数的数据。箱的宽度:每个箱值的取值区间是个常数。BI-Gracie-16-平滑方法:按箱平均值平滑按箱中值平滑按箱边界值平滑聚类聚类每个簇中的数据用其中心值代替忽略孤立点计算机和人工检查相结合先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。人工再审查这些孤立点回归回归通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。线性回归多线性回归c.数据预处理数据预处理-数据集成数据集成将多个数据源中的数据结合起来存放在一个一致的数据存贮中。元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成。d.数据预处理数据预处理-数据变换数据变换数据变换:将数据转换成适合挖掘的形式。平滑:去掉数据中的噪声。技术包括分箱、聚类和回归。聚集:对数据进行汇总和聚集。例如可以聚集日销售数据,计算年销售额。通常这一步用来为多粒度数据分析构造数据立方体。数据概化:使用概念分层,用高层次的概念替换低层次的“原始”数据。如分类的属性 street 可以概化为较高层的概念,如 city 或 country。e.数据预处理数据预处理-数据变换数据变换数据变换:将数据转换成适合挖掘的形式。规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到 1.0或 0.0 到 1.0f.数据预处理数据预处理-数据变换数据变换属性构造由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解。例如,我们可能根据属性 height 和 width 添加属性 area。通过组合属性,属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的g.数据预处理数据预处理-数据归约数据归约数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原数据的完整性3、Effort DistributionBI-Gracie-17-4、关联分析、关联分析关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。关联分析的结果常有两种:关联规则和序列模式。关联规则用于寻找在同一个事件中出现的不同项的相关性关联规则发现的主要对象是交易型数据库,一个交易一般由交易处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)组成。关联规则:是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品 X 的出现对物品 Y 的出现有多大的影响。5、Apriori 算法算法(掌握掌握)连接:用 Lk-1 自连接得到 Ck修剪:一个 k-项集,如果他的一个 k-1 项集(他的子集)不是频繁的,那他本身也不可能是频繁的。伪代码:Ck:Candidate itemset of size kLk:frequent itemset of size kL1=frequent items;for(k=1;Lk!=;k+)do begin Ck+1=candidates generated from Lk;for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 =candidates in Ck+1 with min_support endreturn k Lk;例子例子BI-Gracie-18-如何生成候选集如何生成候选集假定 Lk-1 中的项按顺序排列第一步:自连接 Lk-1 insert into Ckselect p.item1,p.item2,p.itemk-1,q.itemk-1from Lk-1 p,Lk-1 qwhere p.item1=q.item1,p.itemk-2=q.itemk-2,p.itemk-1 B 的置信度有一定的欺骗性,它只是给定 A,B 的条件概率的估计,并不度量 A 和 B 之间蕴涵的实际强度。BI-Gracie-19-7、由关联分析到相关分析、由关联分析到相关分析根据相关性分析挖掘数据项之间有趣的联系。Corr A,B=P(AB)/P(A)P(B)1:项集 A 和 B 是独立的。Corr A,B=P(AB)/P(A)P(B)1:项集 A 和 B 是正相关的。Corr A,B=P(AB)/P(A)P(B)hamburgers”,给定最小支持度阈值 25%,最小置信度阈值 50%,该关联规则是强的吗?(b)根据给定的数据,买 hotdog 独立于买 hamburgers 吗?如果不是,二者之间存在何种相关联系?8 8、数据挖掘技术、数据挖掘技术-概念描述:特征化与比较概念描述:特征化与比较概念描述概念描述:特征化:对所选择的数据汇集给出一个简单明了的描述。比较:提供对于两个或以上数据汇集进行比较的结果。课后练习课后练习根据交叉表算出 t 权(不跨类,横向加起来 100%)、d 权(跨类)1.(a)Class/birth_place Canada others Count t_权 d_权 Count t_权 d_权Programmer 180 60%90%120 40%60%DBA 20 20%10%80 80%40%(B)X,class(x)=“Programmer”(birth_place(X)=“Canada”)t:60%,d:90%V(birth_place(X)=“others”)t:40%,d:60%该规则说明:如果有一个人是 Programmer,则这个人来自加拿大 Canada 的概率为 60%,来自其它地方的概率为40。另一方面,如果我们比较 Programmer 和 DBA 两大类:在 Canada,有 90的成员是 Programmer(由此推出 10的成员是 DBA).在其他国家,有 60的成员是 Programmer(由此推出 40的成员是 DBA).BI-Gracie-20-9、分类和预测、分类和预测分类分类 预测种类字段基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据进行分类.预测预测 对连续性字段进行建模和预测。分类的两个步骤分类的两个步骤模型创建模型创建:建立一个模型,描述预定得数据类集或概念集。每一条记录都属于一个确定的类别,我们使用类标签属性记录类别。用于创建模型的数据集叫:训练集模型可以用分类规则、决策树、或者数学方程的形式来表达。模型使用模型使用:用创建的模型预测未来或者类别未知的记录估计模型的准确率使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较测试集和训练集是独立的。有监督学习有监督学习(分类分类)训练集是带有类标签的新的数据是基于训练集进行分类的使用决策树进行分类使用决策树进行分类决策树算法决策树算法基本算法(贪心算法)基本算法(贪心算法)自上而下分而治之的方法开始时,所有的数据都在根节点属性都是种类字段(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如,information gain)停止分割的条件停止分割的条件BI-Gracie-21-一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割从树中生成分类规则从树中生成分类规则用 IF-THEN 这种形式来表现规则每个叶子节点都创建一条规则每个分割都成为一个规则中的一个条件叶子节点中的类别就是 Then 的内容规则对于人来说更容易理解例子IF age=“=30”AND student=“no”THEN buys_computer=“no”IF age=“40”AND credit_rating=“excellent”THEN buys_computer=“no”IF age=“40”AND credit_rating=“fair”THEN buys_computer=“yes”10、贝叶斯定理、贝叶斯定理先验概率:根据历史资料或主观估计的方法得到的概率。后验概率:通过调查实验或统计分析取得新的信息,并根据新的信息计算出状态概率。P(H|X)表示条件 X 下 H 的概率.贝叶斯定理贝叶斯定理:11、数据挖掘技术、数据挖掘技术-聚类分析聚类分析什么是聚类分析什么是聚类分析簇(簇(Cluster):一个数据对象的集合在同一个类中,对象之间具有相似性;不同类的对象之间是相异的。聚类分析聚类分析把一个给定的数据对象集合分成不同的簇;聚类聚类是一种无监督分类法:没有预先指定的类别;聚类分析的应用聚类分析的应用市场销售市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;保险保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;WWW文档分类分析 WEB 日志数据来发现相似的访问模式例子 1Web 服务器浏览模式的聚类分析BI-Gracie-22-通过对浏览模式会话(会话是指用户/服务器访问 Web 服务器的浏览行为)密度分布的分析并借助于模式匹配,管理员可以对不合理的浏览模式进行调整,以提高Web 服务器的工作效率和网络资源的利用效率。另外,对于挖掘出来的噪声浏览模式应引起管理员更多的关注,噪声浏览模式几乎都是不合理的浏览行为,甚至会形成对网站安全的威胁,管理员应核查这些浏览行为的安全问题,以消除全漏洞。例子 2物流配送系统的聚类分析利用聚类分析方法帮助实现物流配送的优化。大多数物流公司会根据公司的业务情况把配送区域划分成几个小区,部分配送车辆完成固定业务之后不是直接回到配送中心,而是到所在小区内的一个指定地点等候,准备完成该小区客户的随机需求。类似这样的配送模式就需要确定合理的配送车辆随机等待地点和合理的配送线路。对于配送车辆随即等待地点的确定,可分析随机业务的历史数据,利用聚类分析方法进行分区并确定各分区重心,其重心就是配送车辆合理的等待地点。在车辆调度方案优化方面,可以把这个地点作为一个固定的客户,利用经典的车辆调度算法进行配送线路的求解第七章1、知识管理、知识管理知识可以被分为显性知识和隐性知识。显性知识:能用语言、符号、规则、公式或对象等表达,可以记录在一定物质载体上并可以共享的知识,例如书刊、报纸等。隐性知识:是储存在大脑中的经历、经验、技巧、诀窍、体会和感悟等很难表达的知识,例如钢琴师的演奏技巧、医生的临床经验等因长期从事某项业务而形成的判断力、洞察力和直觉。2、知识管理与商务智能的关系、知识管理与商务智能的关系 P176 重点重点区别:区别:1)内涵不同2)知识管理过程和技术不同3)关注的知识类型不同4)面向用户不同联系:联系:1)都辅助决策2)商务智能是知识获取的一种手段(即知识管理包括商务智能)案例 7.1P178(商务智能起到什么作用)第八章1、web 挖掘的分类:挖掘的分类:web 内容挖掘、web 结构挖掘、web 日志挖掘2、web 内容挖掘基本概念内容挖掘基本概念主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频、多媒体、和其他各种类型的数据。3、web 结构挖掘基本概念和作用结构挖掘基本概念和作用Web 结构挖掘是指挖掘 web 链接结构模式,即通过分析页面链接的数量和对象,从而建立 web 的链接结构模式。应用:Web 结构挖掘的典型应用包括信息检索、社区识别、网站优化和搜索引擎。BI-Gracie-23-4、web 日志挖掘概念和应用日志挖掘概念和应用 P192Web 日志挖掘是从用户访问日志中获取有价值的信息,即通过分析 web 日志数据,发现访问者存取 web 页面模式,识别访问者的兴趣、访问频率、满意度,从而发现潜在用户,增强网站的竞争力。应用:Web 日志挖掘在网站个性化设计、商业决策、改善系统性能和网站网页结构优化等方面是很有用的。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 考试专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服