数据挖掘浙江工商大学期末复习.doc

资源描述

各章节知识点及课后习题。（知识点事课后习题的斜体表示）第一章：概论数据仓库定义和特征：数据仓库就是面向主题的、集成的、不可更新的（稳定性）、随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程。第二章：数据仓库技术与开发数据仓库的技术体系结构：后台数据预处理、数据仓库数据管理和数据仓库的前台查询服务。数据仓库的开发流程：规划与分析阶段、设计与实施阶段、应用阶段。总线型数据仓库结构：总线型数据仓库结构的核心思想是使用统一的维和统一的事实来构造数据仓库的总线。 1.数据仓库的概念模型是用什么来表达的，为什么实体——联系模型不适用来建立数据仓库的概念模型？数据仓库的概念模型一般用多维数据模型。实体联系模型不适合建立数据仓库是因为实体联系使用于事务性处理，它可以保证数据的唯一性、一致性，使操作变得简单而高效。但数据仓库是面向分析的应用，进行分析时关心的是一个个分析领域，而这不适合用实体关系建模，由于分析的各种要素分散在关心复杂的各种实体及其联系中，这使得分析难以顺利进行。 2.什么是粒度？粒度的大小与数据量、查询能力、查询效率有什么关系？粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别，越是详细的数据，粒度级别就越小。粒度越小，数据量越大，查询能力越高，查询效率越低 3.什么叫数据分割？怎么确定数据分割的标准？数据分割是指把打的数据集划分为多个较小的数据集，并分散到不同的物理单元进行存储，使他们能独立的被处理。数据分割的标准一般基于两方面：数据量：数据量的大小是决定是否要进行数据分割以及如何分割的主要因素。分析对象性质：不同的性质的主题数据，其分割的标准可能不同。第三章：数据仓库的管理技术数据仓库三类数据：休眠数据、元数据、脏数据。休眠数据：存在于数据仓库中、当前并不使用、将来也很少使用或者根本就不会使用的数据。休眠数据进入数据库的方法：概括表格的创建错误估计实际上所需要的历史数据的年限随着时间推移，需求的现实性逐渐明显坚持让详细数据驻留在数据仓库中处理：丢进垃圾桶、归档处理、近线处理。元数据：关于数据的数据。管理：建立企业级的中心知识库是实现元数据管理的基本途径和关键。脏数据进入数据仓库的四种方法：数据源系统中的脏数据进入仓库不合适的集成造就脏数据进入数据仓库数据仓库中以前输入的数据过期用户需求的改变或添加了对数据质量有不同要求的用户。清理脏数据：数据分析、数据检测、数据修正。第四章：联机分析处理 OLAP（联机分析处理）定义：利用联机事务处理系统产生的大量数据为组织的决策提供信息。 FASMI：快速性(Fast)：系统能在数秒内对用户的多数分析要求做出反应可分析性(Analysis)：用户无需编程就可以定义新的专门计算，将其作为分析的一部分，并以用户所希望的方式给出报告共享性（Shared）：在有安全保障的前提下支持多用户共享与并发操作多维性(Multi-dimensional) ：提供对数据分析的多维视图和分析信息性(Information)：能及时获得信息，并且管理大容量信息 OLAP的基本操作：切片、切块、旋转。多维OLAP（MOLAP）：直接采用多维数据库进行联机分析处理。关系OLAP（ROLAP）：采用关系数据库来存放多维数据库进行联机分析处理。 1. 试解释度量值、维、多维数据集的概念。度量值：是人们观察事务的焦点。如：销售额维：是人们观察事务的角度。如:时间多维数据集：所以同质的度量值及其关联的维的维成员构成的一个多维数据集。是OLAP的核心。第五章：SQL Server数据仓库的应用与开发星形模式：是一种多维的数据关系，它由一个事实表（Fact Table）和一组维表（Dimension Table）组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实（Fact），它们一般都是数值或其他可以进行计算的数据；而维大都是文字、时间等类型的数据，按这种方式组织好数据我们就可以按照不同的维（事实表主键的部分或全部）来对这些事实数据进行求和（summary）、求平均（average）、计数（count）、百分比（percent）的聚集计算，甚至可以做20～80分析。这样就可以从不同的角度数字来分析业务主题的情况。第六章：数据挖掘与知识发现数据挖掘的目的：研究发现知识的各种方法和技术。知识发现（KDD）的定义：指从大型数据库中或数据仓库中提取人们感兴趣的知识，这些知识是隐含的、事先未知的、易被理解的模式。知识发现的过程：数据准备、数据挖掘及结果的解释和评估。知识发现过程的步骤：数据集成、数据选择、数据预处理、数据转换、数据挖掘、结果表述和解释。数据挖掘的任务：关联分析、时序模式、聚类、分类、偏差检测及预测。数据挖掘的对象：关系数据库、文本、图像与视频数据、web数据。数据挖掘常用方法：归纳学习法、仿生物技术、公式发现、统计分析方法、模糊数学方法、可视化技术。数据挖掘的分类：探索性数据分析、描述建模、预测建模、寻求模式和规则、根据内容检索数据挖掘的知识表示：规则、决策树、知识基、网络权值、公式。规则如何表示： IF（发色=金色V红色）^(眼睛=蓝色V灰色) then 第一类人 IF（发色=黑色）^(眼睛=黑色) then 第二类人即凡是具有红色或红色头发，并且同时又蓝色或灰色眼睛的人属于第一类人，凡是有黑色头发或黑色眼睛属于第二类人。二、区别数据仓库与数据库的区别数据库数据仓库面向事务面向主题存储短期数据存储长期历史数据设计尽量避免冗余有意引入冗余为捕获数据而生分析数据而生可以修改不可修改 OLAP与OLTP的对比联机事务处理OLTP（online Transaction Processing）OLAP是联机分析处理是后来发展的。区别如下：、产生背景和目的不同。前者的目的是通过对现有数据进行分析处理，获得信息，支持决策。或者的目的是加速对业务数据的处理，支持企业的业务运作。使用的数据模型不同。OLTP使用的是传统数据模型（关系模型），OLAP使用基于围标和事实表的星型多维数据模型。数据的综合程度不同。 OLAP中的数据不可更改。但需要周期性的更新，而OLTP中的数据可以更改。对数据的处理不同。OLTP对数据进行操作型处理，一般运用SQL命令进行追加、删除、修改、查询等。OLAP则进行切片、切块、旋转、钻取。聚类分析和最近邻技术的对比数据仓库和数据集市的对比：数据仓库是企业级的，而数据集市是部门级的。决策支持系统（DSS）和专家系统（ES）和智能决策支持系统（IDSS）决策支持系统主要是进行分析处理，使得数值计算和数据处理融为一体，提高了辅助决策的能力，属于定量分析。专家系统是利用专家的知识在计算机上进行推理，达到专家解决问题的能力，属于定性分析。智能决策支持系统时专家系统和决策支持系统结合形成的系统，它是决策支持系统的发展方向。 MOLAP和ROLAP的对比： 1.查询功能：MOLAP在查询性能和相应速度上要优于ROLAP 2.空间占用：如果所有维成员组合都存在相应度量值，MOLAP比较节省空间，反之，当大量维成员组合不存在相应度量值， MOLAP会造成空间大量浪费。ROLAP不会出现这种问题。 3.分析查询能力： MOLAP在分析查询能力上要次于ROLAP 一般认为：功能强、复杂的企业级数据仓库一般选择ROLAP，功能单一、小型的数据集市更宜采用MOLAP 数据挖掘和专家系统的对比：专家系统是将大量的专家知识和启发性知识编制在一个程序中，以解决困难的问题。数据挖掘专家系统相同点都是利用已有的信息来帮助人们解决问题不同点是从大量已存在的数据中发现人们难以直观或手工发现的有用信息来进行决策支持利用专家的知识和启发性知识，按照一定的推理规则来帮助人们解决问题。强调事实第一强调经验第一唯数据唯专家共享维度和专用维度的区别：专用维度是只能用于当前所处理的多维数据集，而不能与其他多维数据集共享。而共享维度可以在多维数据集之间共享。虚拟维度和普通维度的区别：普通维度类似数据库中的普通表，虚拟维度类似数据库中的视图，虚拟维度是在普通维度的基础上建立或导出的，事实上并没有物理存储，用户查看虚拟维度时实际上先到普通维度那提取所需数据再组合显示成虚拟维度，因此查询速度比普通维度慢，但使用方便。综合题一、数据仓库 a) 多维数据模型 i. 星型结构 ii. 对某具体应用能会hi多维数据模型的星型模式E-R图。 b) 元数据 c) 数据粒度模型设计（参考飞机那题）二、统计类数据挖掘 a) 一元线性回归进行数据拟合（p156）三、知识类数据挖掘 a) 决策树 i. 定义，构造方法ID3及面对具体问题如何构造 ii. 用IFThen对决策树结果进行表述 b）关联规则的可信度，支持度计算，根据计算结果说明此规则的适用程度。题型： a）填空题（1*20） b）选择题（2*20） c）是非题（2*10/2*5） d）简答题（5*4） e）综合题（10*2/10*3）

展开阅读全文