数据仓库与数据挖掘技术第四章数据预处理.doc

资源描述

1、第4章数据预处理4。1数据预处理概述4。1.1原始数据中存在的问题1. 不一致2。重复3. 不完整4. 含噪声5. 维度高6。数据不平衡4.1.2数据预处理的方法和功能1. 数据清洗(data cleaning）2. 数据集成(data integration）3。数据变换(data transformation)4. 数据归约(data reduction）4.2数据清洗4.2.1属性选择与处理1. 尽可能赋予属性名和属性值明确的含义2。统一多数据源的属性值编码3。处理唯一属性4。去除重复属性5. 去除可忽略字段6. 合理选择关联字段4。2。2空缺值处理1。忽略该记录2。去

2、掉属性3。写空缺值4。使用默认值5。使用属性平均值6. 使用同类样本平均值7。预测最可能的值4.2.3噪声数据处理1。分箱(binning)2. 聚类（clustering)图41用聚类方法去掉噪声3. 回归(regression)4。2。4不平衡数据的处理4.3数据集成和变换4.3。1数据集成1. 模式匹配2。数据冗余3。数据值冲突4。3.2数据变换1. 平滑（smoothing）2。聚集(clustering)3。数据概化（generalization）4. 规范化（normalization)5。属性构造4.4数据归约4。4。1数据归约的方法4。4。2数据立方体聚集图

3、4-2销售数据立方体图4-3聚集后的销售数据立方体4。4。3维归约1. 逐步向前选择2. 逐步向后删除3. 向前选择和向后删除结合4。判定树（dicision tree)归纳图4-4用判定数进行属性归约5。基于统计分析的归约4。4。4数据压缩4.4。5数值归约1. 直方图(histogram）图4-5购买数据的单桶直方图图4-6购买数据的等宽直方图（箱宽5）2. 聚类3。抽样（sampling）图47示例数据集图4-8用户数据按年龄分层抽样4。线性回归5。非线性回归4.4。6离散化与概念分层生成图49分箱产生的概念分层和离散化1. 数值数据的离散化与概念分层生成图4-103-45规则

4、产生的概念分层图4-11数据集D的分布曲线图4-12在置信区间5%，95%上的第一层划分图4-13对缺失区间补充的划分图414对图413进一步分层2. 分类数据的概念分层生成图415对属性组: year，month，day的概念分层习题41. 列举实际业务操作数据中存在的问题以及这些问题产生的原因。2. 数据预处理涉及哪些方法，这些方法分别用于解决数据中的哪方面的问题?3。说明属性选取的原则。4。说明填补空缺值的方法和这些方法的优缺点。5。下面是一个超市某种商品连续24个月的销售数据(百元): 21,16，19，24，27,23，22，21，20，17，16，20,23，22,18,24

5、，26，25，20，26，23，21，15，17使用统一权重、统一区间、和自定义区间方法对数据分箱，做出各种分箱方法得到的直方图。6. 对上题中分箱后的数据采用平均值、边界值或中值等方法进行平滑。7。如果挖掘算法需要把第5题中的商品销售数据规范化到区间0，1上,采用最小-最大规范化方法，请写出规范化后的结果。8。试采用一种分箱方法，对以下某种商品连续30周的销售利润数据进行归约（千元)： 3，2，5，7,4，2，5，6,8，8，4，5,4，6,2,3，7，5，5，4，6，3，4,7，8，3,6，4，2,39. 解释本章中提到的几种数据抽样方法.10. 用等宽分箱技术对排序后的数据集D=(0，0,2，2，2，4，8，8，8,12,12，12，12，15,15，16，16，16，16，21，21，21，25,25，25，25，25，28，28，29，34，34,34，34，37，37,44，44，44，58,58，58，58，58，63，63，66，66，66，69，74，74，74，78,78）进行离散化，使得每箱宽度不大于5，形成概念分层。11。对连续数值型数据集D，取值范围为070，试用3-45规则对其进行离散化.

展开阅读全文