数据挖掘概念与技术第三版部分习题答案.doc

资源描述

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。翻译结果重试抱歉，系统响应超时，请稍后再试 · 支持中文、英文免费在线翻译 · 支持网页翻译，在输入框输入网页地址即可 · 提供一键清空、复制功能、支持双语对照查看，使您体验更加流畅 1.3 定义下列数据挖掘功能：特性化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特性化是一个目的类数据的一般特性或特性的汇总。例如，学生的特性可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特性涉及作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，尚有所修的课程的最大数量。 􀁺 区分是将目的类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述也许是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。 􀁺 关联是指发现关联规则，这些规则表达一起频繁发生在给定数据集的特性值的条件。例如，一个数据挖掘系统也许发现的关联规则为：major(X, “computing science”) ⇒ owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一个表达学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或拟定度）。 􀁺 分类与预测不同，由于前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目的数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。 􀁺 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。 􀁺 数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这也许涉及时间相关数据的特性化、区分、关联和相关分析、分类、或预测，这种分析的明确特性涉及时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和相应的频率如下。 ――――――――――――――――――――――――――――――――――――― 年龄频率 ――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ――――――――――――――――――――――――――――――――――――― 计算数据的近似中位数值。解答：先鉴定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 相应中位数区间。 ∴ median=32.97 岁。 2.2 假定用于分析的数据包含属性age。数据元组的age 值（以递增序）是：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。答：(a) 该数据的均值是什么？中位数是什么？均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27 =29.96 中位数应是第14个,即x14=25=Q2。 (b) 该数据的众数是什么？讨论数据的峰（即双峰、三峰等）。这个数集的众数有两个：25 和35,发生在同样最高的频率处,因此是双峰众数。 (c) 数据的中列数是什么？数据的中列数是最大数和最小数的均值。即：midrange=(70+13)/2=41.5。 (d) 你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（Q3）吗？数据集的第一个四分位数应发生在25%处，即在(N+1)/4=（27+1）/4=7 处。所以：Q1=20。而第三个四分位数应发生在75%处,即在3×(N+1)/4=21 处。所以：Q3=35 (e) 给出数据的五数概括。一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是：13、20、25、35、70。 (f) 画出数据的盒图。 (g) 分位数—分位数图与分位数图的不同之处是什么？分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略比例。这样,他可以展示所有数的分位数信息,而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。但分位数—分位数图用纵轴表达一种单变量分布的分位数,用横轴表达另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线（y=x）可画到图中+以增长图像的信息。落在该线以上的点表达在y 轴上显示的值的分布比x 轴的相应的等同分位数相应的值的分布高。反之,对落在该线以下的点则低。 2.4假设医院检测随机选择的18个成年人年龄和身体脂肪数据，得到如下结果： (a)计算年龄和脂肪比例的均值、中位数和标准差. 年龄均值=(23+23+27+27+39+41+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位数= (50+52)/2=51, 标准差=方差的平方根=开根号（ 1/n[∑(Xi)2-1/n(∑Xi)2]）=开根号 1/18[2970.44]=12.85. 脂肪比例均值=28.78, 中位数=30.7, 标准差= 8.99. (b)绘制年龄和脂肪比例的盒图 (c)根据这两个属性,绘制散布图,各q-q图 q-q图散布图 (d)根据z-score 规范化来规范化这两个属性（P46） (e)计算相关系数(皮尔逊积矩系数). 这两个变量是正相关还是负相关? ra,b=∑(ai-A)(bi-B)/NσAσB=（∑(aibi)-NAB）/NσAσB=（∑(aibi)-18*46.44*28.78）/18*12.85*8.99=0.82 相关系数是0.82。变量呈正相关。 3.3 使用习题2.4 给出的age 数据回答下列问题： (a) 使用分箱均值光滑对以上数据进行光滑，箱的深度为3。解释你的环节。评述对于给定的数据，该技术的效果。 (b) 如何拟定数据中的离群点？ (c) 对于数据光滑，尚有哪些其他方法？解答： (a) 使用分箱均值光滑对以上数据进行光滑，箱的深度为3。解释你的环节。评述对于给定的数据，该技术的效果。用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下环节：环节1：对数据排序。（由于数据已被排序，所以此时不需要该环节。）环节2：将数据划分到大小为3 的等频箱中。箱1：13，15，16 箱2：16，19，20 箱3：20，21，22 箱4：22，25，25 箱5：25，25，30 箱6：33，33，35 箱7：35，35，35 箱8：36，40，45 箱9：46，52，70 环节3：计算每个等频箱的算数均值。环节4：用各箱计算出的算数均值替换每箱中的每个值。箱1：44/3，44/3，44/3 箱2：55/3，55/3，55/3 箱3：21，21，21 箱4：24，24，24 箱5： 80/3 ，80/3， 80/3 箱 6： 101/3，101/3， 101/3 箱7：35，35，35 箱8：121/3，121/3，121/3 箱9：56，56，56 (b) 如何拟定数据中的离群点？聚类的方法可用来将相似的点提成组或“簇”，并检测离群点。落到簇的集外的值可以被视为离群点。作为选择，一种人机结合的检测可被采用，而计算机用一种事先决定的数据分布来区分也许的离群点。这些也许的离群点能被用人工轻松的检查，而不必检查整个数据集。 (c) 对于数据光滑，尚有哪些其他方法？其它可用来数据光滑的方法涉及别的分箱光滑方法，如中位数光滑和箱边界光滑。作为选择，等宽箱可被用来执行任何分箱方式，其中每个箱中的数据范围均是常量。除了分箱方法外，可以使用回归技术拟合成函数来光滑数据，如通过线性或多线性回归。分类技术也能被用来对概念分层，这是通过将低档概念上卷到高级概念来光滑数据。 3.5 如下规范化方法的值域是什么？答： (a) min-max 规范化。值域是[new_min, new_max]。 (b) z-score 规范化。值域是[(old_min－mean)/σ，(old_max－mean)/σ]，总的来说，对于所有也许的数据集的值域是(－∞，+∞)。 (c) 小数定标规范化。值域是(－1.0,1.0)。 3.7 使用习题 2.4 给出的 age 数据，回答以下问题： (a) 使用 min-max 规范化将 age 值 35 变换到[0.0，1.0]区间。 (b) 使用 z-score 规范化变换 age 值 35，其中 age 的标准差为 12.94 岁。 (c) 使用小数定标规范化变换 age 值 35。 (d) 对于给定的数据，你乐意使用哪种方法？陈述你的理由。解答： 3.9 假设 12 个销售价格记录组已经排序如下：5，10，11，13，15，35， 50，55，72，92，204，215。使用如下每种方法将其划提成三个箱。 (a) 等频（等深）划分。 (b) 等宽划分。 (c) 聚类。解答： (a) 等频（等深）划分。 bin1 5,10,11,13 bin1 15,35,50,55 bin1 72,91,204,215 (b) 等宽划分。每个区间的宽度是：(215-5)/3=70 bin1 5,10,11,13,15,35,50,55,72 bin1 91 bin1 204,215 (c) 聚类。我们可以使用一种简朴的聚类技术：用 2 个最大的间隙将数据提成 3 个箱。 bin1 5,10,11,13,15 bin1 35,50,55,72,91 bin1 204,215 3.11 使用习题 2.4 给出的 age 数据， (a) 画出一个等宽为 10 的等宽直方图； (b) 为如下每种抽样技术勾画例子：SRSWOR，SRSWR ，聚类抽样，分层抽样。使用大小为 5 的样本和层“青年”，“中年”和“老年”。解答：(a) 画出一个等宽为 10 的等宽直方图； 8 7 6 5 4 3 2 1 0 15 25 35 45 55 65 (b) 为如下每种抽样技术勾画例子：SRSWOR，SRSWR ，聚类抽样，分层抽样。使用大小为 5 的样本和层“青年”，“中年”和“老年”。元组： T 1 13 T 10 22 T 19 35 T 2 15 T 11 25 T 20 35 T 3 16 T 12 25 T 21 35 T 4 16 T 13 25 T 22 36 T 5 19 T 14 25 T 23 40 T 6 20 T 15 30 T 24 45 T 7 20 T 16 33 T 25 46 T 8 21 T 17 33 T 26 52 T 9 22 T 18 35 T 27 70 SRSWOR 和 SRSWR：不是同次的随机抽样结果可以不同，但前者因无放回所以不能有相同的元组。 SRSWOR (n=5) SRSWR (n=5) T 4 16 T 7 20 T 6 20 T 7 20 T 10 22 T 20 35 T11 25 T 21 35 T 26 52 T 25 46 聚类抽样：设起始聚类共有 6 类，可抽其中的 m 类。 Sample1 Sample2 Sample3 Sample4 Sample5 Sample6 T 1 13 T6 20 T 11 25 T 16 33 T 21 35 T 26 52 T 2 15 T7 20 T 12 25 T 17 33 T 22 36 T 27 70 T 3 16 T8 21 T 13 25 T 18 35 T 23 40 T 4 16 T9 22 T 14 25 T 19 35 T 24 45 T 5 19 T 10 22 T 15 30 T 20 35 T 25 46 Sample2 Sample5 T 6 20 T21 35 T 7 20 T22 36 T 8 21 T23 40 T 9 22 T24 45 T 10 22 T25 46 T1 13 young T 10 22 young T 19 35 middle age T2 15 young T 11 25 young T 20 35 middle age T3 16 young T 12 25 young T 21 35 middle age T4 16 young T 13 25 young T 22 36 middle age T5 19 young T 14 25 young T 23 40 middle age T6 20 young T 15 30 middle age T 24 45 middle age T7 20 young T 16 33 middle age T 25 46 middle age T8 21 young T 17 33 middle age T 26 52 middle age T9 22 young T 18 35 middle age T 27 70 senior T4 16 young T 12 25 young T 17 33 middle age T 25 46 middle age T 27 70 Senio r 4.3 假定数据仓库包含三维：time,doctor和patient;和两个度量：count和charge;其中，charge是医生对病人一次诊治的收费。 (a)列举三种流行的数据仓库建模模式答：三类模式一般用于建模数据仓库架构的星形模型，雪花模型和事实星座模型。 (b)使用(a)列举的模式之一，画出上面的数据仓库的模式图数据仓库的星形模型（C）由基本方体[day,doctor,patient]开始，为列出2023年每位医生的收费总数，应当执行哪些OLAP操作？沿课程（course）维从course_id“上卷”到department。 l 沿时间（time）维从 day “上卷”到 year。 l 取 time=2023，对维 time作“切片” 操作 l 沿病人（patient）维从个别病人 “上卷”到所有病人。 (d)为得到同样结果，写一个SQL查询。假定数据存放在关系数据库中，其模式为 fee(day，month，year，doctor，hospital，patient，count，charge)。答：SQL查询语句如下： select doctor, SUM(charge) from fee where year=2023 group by doctor 4.4 假定 BigUniversity 的数据仓库包含如下 4 个维：student(student_name, area_id , major, status, university) ， course(course_name, department) ， semester(semester, year) 和 instructor(dept, rank)；2 个度量：count 和 avg_grade。在最低概念层，度量 avg_grade 存放学生的实际课程成绩。在较高概念层， avg_grade 存放给定组合的平均成绩。 (a) 为该数据仓库画出雪花形模式图。 (b) 由基本方体 [student, course, semester, instructor] 开始，为列出 BigUniversity 每个学生的 CS 课程的平均成绩，应当使用哪些特殊的 OLAP 操作。 (c) 假如每维有 5 层（涉及 all），如“student<major<status<university<all ”，该立方体包含多少方体？解答： a) 为该数据仓库画出雪花形模式图。雪花模式如图所示。 b) 由基本方体 [student, course, semester, instructor] 开始，为列出 BigUniversity 每个学生的 CS 课程的平均成绩，应当使用哪些特殊的 OLAP 操作。这些特殊的联机分析解决（OLAP ）操作有： i. 沿课程（course）维从 course_id “上卷”到 department。 ii. 沿学生（student）维从 student_id “上卷”到 university 。 iii. 取 department= “CS ”和 university= “Big University ”，沿课程（course）维和学生（student）维切片。 iv. 沿学生（student）维从 university 下钻到 student_name。 c) 假如每维有 5 层（涉及 all），如“student<major<status<university<all ”，该立方体包含多少方体？这个立方体将包含 54=625 个方体。 4.5 假定数据仓库包含4维：date, spectator, location, 和game，和两个度量：count和charge;其中，charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人，每类观众有不同的收费标准。 (a)画出该数据仓库的星形模式图。答：星形模式图如下： b. 由基本方体[date，spectator，location，game]开始，为列出2023年学生观众在GM_Place的总付费，应执行的OLAP操作： l 沿时间（date）维从date_id “上卷”到 year。 l 沿时间（game）维从 game_id “上卷”到所有。 l 沿时间（location）维从location_id “上卷”到 location_name 。 l 沿时间（spectator）维从spectator_id “上卷”到 status 。 l 以 status="students", location name="GM Place" and year=2023 作转轴操作 4.6 数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点，然后分析它们的相对做优、缺陷。哪种模式更实用，给出你观点并陈述你的理由。答：星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们重要的不同在于，雪花模式的维表也许是规范化形式，以便减少了冗余，这种表易于维护并节省存储空间。然而，与巨大的事实表相比，这种空间的节省可以忽略。此外，由于执行查询需要更多的连接操作，雪花形结构也许减少浏览的性能，这样，系统的性能也许相对的受到影响。星型模式的优点是简朴、这使得它更有效，但它需要更多的空间。因此，只要空间的规定不是太大时，星形模式比雪花模式更好，由于通常效率比空间具有更高的优先级。在工业上，有时也许将数据从一个雪花模式非规范化为星型模式以加快解决速度，另一种选择是保持雪花模式的维表，然后相同数据的当前用户折叠为星形。 4.9 4.11 5.1 5.2 5.4 假定基本方体有三维A,B,C,其单元数如下：|A|=1000000,|B|=100,|C|=1000.假定每维均等地分块成10部分。（a）假定每维只有一层，画出完整的立方体的格。答：完整的立方体的格如下图（b）假如每个立方体单元存放一个4字节的度量，若立方体是稠密的，所计算的立方体有多大？答：所计算的立方体大小如下： all：1 A: 1,000,000; B: 100; C: 1, 000; 小计: 1,001,100 AB: 1,000,000*100=100,000,000; BC: 100*1,000=100,000; AC: 1,000,000*1,000=1,000,000,000; 小计: 1,100,100,000 ABC: 1,000,000*100*1,000=100,000,000,000 总和: 1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 * 4 = 404,404,404,404 字节（C）指出空间需求量最小的立方体中的块计算顺序，并计算2-D平面计算所需要的内存空间总量。答：顺序计算，需要最少数量的空间B-C-A.如图所示：计算二维平面需要的总主内存空间是：总空间 = (100×1,000) + (1,000,000 × 10) + (100 × 10,000) = 20,100,000 单元* 4字节/单元= 80,400,000 字节 6.3 Apriori算法使用子集支持性质的先验知识。 (a) 证明频繁项集的所有非空的子集也必须是频繁的。答：设s是一个频繁项集，min_sup 是最小支持度阀值，任务相关的数据D是数据库事务的集合，|D|是D 有事务量，则有Support_count(s) = min_sup×|D|；再设s’是s的非空子集，则任何包含项集s的事务将同样包含项集s’ , 即： support_ count(s') support count(s) = min_sup ×|D|. 所以，s’也是一个频繁项集。 (b) 证明项集s的任意非空子集s’的支持至少和s的支持度同样大。答：设任务相关的数据D是数据库事务的集合，|D|是D 的事务量，由定义得：设s’是s的非空子集，由定义得：由（a）可知：support(s’) support(s) 由此证明，项集s的任意非空子集s’的支持至少和s的支持度同样大。（c）给定频繁项集 l 和 l 的子集 s ,证明规则的置信度不也许大于答：设 s 是 l 的子集, 则设s’是s的非空子集，则由（b）可知：support_count(s') support count(s)，此外，confidence(s’) (l-s’)) confidence(s) (l- s)) 所以，规则的置信度不也许大于。 6.6设数据库有5个事务。设min_sup =60%, min_conf=80% (a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。效率比较：Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是昂贵的（由于联接），而FP增长不产生任何候选。 (b)列举所有与下面的元规则匹配的强关联规则（给出支持度S和置信度C）,其中，X是代表顾客的变量，itemi是表达项的变量（如：“A”、“B”等）：答： k,o e [0.6,1] e,o k [0.6,1] 6.8.数据库有4个事务，设min_sup =60%, min_conf=80% （a）在item_category粒度（例如，itemi 可以是“Milk”），对于下面的规则模板对最大的k,列出频繁k项集包含最大的k的频繁k项集的所有强关联规则（涉及它们的支持度S和置信度c）. (b)在粒度（例如：itemi 可以是“Sunset-Milk”）对于下面的规则模板对最大的k，列出频繁k项集（但不输出任何规则）。 6.14 下面的相依表汇总了超级市场的事务数据。其中，hot dogs表达包含热狗的事务，hot dogs表达不包含热狗的事务，hamburgers表达包含汉堡包的事务，hamburgers表达不包含汉堡包的事务，（a）假定挖掘出了关联规则。给定最小支持度阀值25%，最小置信度阀值50%，该关联规则是强规则吗？答：根据规则， support = 2023/5000 = 40%， confidence = 2023/3000 = 66.7%. 该关联规则是强规则. （b）根据给定的数据，买 hot dogs独立于买humburgers吗？假如不是，两者之间存在何种相关联系。答：corr{hotdog;hamburger} = P({hot dog, hamburger})/(P({hot dog}) P({hamburger})=0.4/(0.5 × 0.6) =1.33 > 1. 所以，买 hot dogs不是独立于买humburgers。两者存在正相关关系 8.1 简述决策树分类的重要环节。 8.5 给定一个具有50个属性（每个属性包含100个不同值）的5GB的数据集，而你的台式机有512M内存。简述对这种大型数据集构造决策树的一种有效算法。通过粗略地计算机主存的使用说明你的答案是对的的。这个问题我们将使用雨林算法。假设有C类标签。最需要的内存将是avc-set为根的树。计算avc-set的根节点，我们扫描一次数据库，构建avc-list每50个属性。每一个avc-list的尺寸是100×C，avc-set的总大小是100×C×50，对于合理的C将很容易适应512 MB内存，计算其他avc-sets也是使用类似的方法，但他们将较小，由于很少属性可用。在并行计算时，我们可以通过计算avc-set节点来减少同一水平上的扫描次数，使用这种每节点小avc-sets的方法，我们或许可以适应内存的水平。 8.7下表由雇员数据库的训练数据组成。数据已泛化。例如：age “31...35”表达年龄在31-35之间。对于给定的行，count表达department,status,age和salary在该行具有给定值的元组数。设status 是类标号属性。（a）如何修改基本决策树算法，以便考虑每个广义数据元组（即每一行）的count? (b)使用修改的算法，构造给定数据的决策树。 (c)给定一个数据元组，它在属性department,age和salary的值分别为“systems”,“26..30”,和“46K.. 50K”。该元组status的朴素贝叶斯分类是什么？ 9.2支持向量机（SVM）是一种具有高准确率的分类方法。然而，在使用大型数据元组集进行训练时，SVM的解决速度很慢。讨论如何克服这一困难，并为大型数据集有效的SVM算法。

展开阅读全文