ImageVerifierCode 换一换
格式:DOC , 页数:6 ,大小:40.50KB ,
资源ID:3653388      下载积分:6 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3653388.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(数据挖掘试卷一.doc)为本站上传会员【a199****6536】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

数据挖掘试卷一.doc

1、 数据挖掘整理(熊熊整理-----献给梦中的天涯) 单选题 1.下面哪种分类方法是属于神经网络学习算法?( ) A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2.置信度(confidence)是衡量兴趣度度量( A )的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4.数据归约的目的是( )

2、 A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? A.数据清理 B.数据集成 C.数据变换 D.数据归约 6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A 第一个 B 第二个 C 第三个 D 第四个 7.下面的数据操作中,( )操作不是多维数据模型上的OLAP

3、操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8.关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9.下列哪个描述是正确的?( ) A、分类和聚类都是有指

4、导的学习 B、分类和聚类都是无指导的学习 C、分类是有指导的学习,聚类是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习 10简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B ) A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类 11将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 12 什么是KDD? (A) A. 数据挖掘与知识发现 B.

5、领域知识发现 C. 文档知识发现 D. 动态知识发现 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 判断题 1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对) 2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对) 4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的

6、一个有限区域做出描述。(错) 5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错) 6. 离群点可以是合法的数据对象或者值。    (对) 7. 离散属性总是具有有限个值。        (错) 8. 噪声和伪像是数据错误这一相同表述的两种叫法。     (错) 9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对) 10. 特征提取技术并不依赖于特定的领域。      (错) 11. 序列数据没有时间戳。      (对) 12. 定量属性可以是整数值或者是连续值。     (对) 13. 可视化技术对于分析的数据类型通常不是专用性的

7、    (错) 14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对) 15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 (对) 16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对) 17. 数据仓库中间层OLAP服务器只能采用关系型OLAP (错) 18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部

8、分. (错) 19. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错) 21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错) 22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。 23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错 24. 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是X的子集。(对) 25. 具有较高的支持度的项集具有较高的置信度。(错) 26. 聚类(clustering)是这样的过程:它找出描述并区

9、分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。 (错) 27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对) 28. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对) 29. Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错) 30.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对) 31. 在决策树中,

10、随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错) 32. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错) 33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错) 34. 聚类分析可以看作是一种非监督的分类。(对) 35. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错 36. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优

11、错) 37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对) 38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对) 39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对) 简答题 1.简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(7分) 答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后

12、通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(3分) 使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;(2分) 使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。(2分) 2.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行

13、6分) 答:使用一个独立的数据仓库进行OLAP处理是为了以下目的: (1)提高两个系统的性能 操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的 OLAP查询, 多维视图,汇总等OLAP功能提供了优化。 (2)两者有着不同的功能 操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。 (3)两者有着不同的数据 数据仓库中存放历史数据;日常操作数据库中存放的往往只是最

14、新的数据。 3.对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分) 答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括: 逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分) 层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分) 层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的

15、它是上述两个极端策略的折中。(2分) 4.跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分) 答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括: 电子商务提供海量的数据: “点击流”(Clickstreams)将会产生电子商务挖掘的大量数据; 丰富的记录信息: 良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息; 干净的数据: 从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合; 研究成果容易转化: 在电子商务中,很多知识发现都可以进行直接应用; 投资收益容易衡量: 所有数据都是电子化的,可以非常方便的生

16、成各种报表和计算各种收益。 5什么是数据仓库?简述数据仓库的几种常用模型。 6数据挖掘过程中为什么要进行数据预处理?数据预处理有哪些方面? 7请简述数据挖掘过程. 1确定挖掘对象 2准备数据 3建立模型 4数据挖掘 5结果分析 6知识应用 8请叙述元数据的定义及其在数据仓库中的作用。 元数据是关于数据的数据,从元数据的类型与作用来看,元数据实际上是解决何人在何时、何地为了什么原因、怎样使用数据仓库的问题。 1、数据仓库元数据的重要性 (1)为数据仓库服务和DSS分析员及高层决策人员服务提供便利 (2) 解决操作型环境和数据仓库的复杂关系

17、3)数据仓库中数据的管理 2、元数据在数据仓库开发期间的使用 数据仓库的开发过程是一个构造工程的过程,它必须提供清晰的文档。该过程产生的元数据主要用于数据仓库的应用管理 (1)元数据的设计需要改变传统数据库设计的观念 (2)突出操作系统的当前元数据 (3)在抽取、求精、和重构过程中,时刻保持从资源到数据仓库之间的映射关系。 3、元数据在数据源抽取中的作用 数据源块的元数据用于数据库的定义,以及向数据仓库及其定义提供从办公系统和外部来源中抽取的数据条目。元数据对多个来源的数据集成发挥着关键作用。 (1)资源领域的确定 (2)跟踪历史数据结

18、构变化的过程 (3)属性到属性的映射 (4)属性转换 4、元数据在数据求精与重构工程上的作用 数据求精与重构工程负责净化资源中的数据、增加资源戳和时间戳、将数据转换为符合数据仓库的数据格式、预算概括和衍生数据的值。 (1)集成与分割 (2)概括与聚集 (3)预算与推导 (4) 转换与再映像 四、算法题(共20分) 1.Apriori算法是从事务数据库中挖掘单维布尔关联规则的常用算法,该算法利用频繁项集性质的先验知识,从候选项集中找到频繁项集。 (1)Aprior算法包括哪两个基本步骤 (2)对下图中所示的事务数据记录D,(|D|=4)

19、请用图示与说明解释如何使用Apriori算法寻找D中的频繁项集。(假设最小事务支持计数为2) TID 项ID的列表 T100 A,C,D T200 B,C,E T300 A,B,C,E T400 B,E 2.判定树归纳算法是一种常用的分类算法 (1)请简述判定树归纳算法的基本策略 (2)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判

20、定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益 对age<18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323 对age>23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155 请根据以上结果绘制出判定树buys_PCGame。(4分) 3 训练数据集合age、student、income、r

21、ating这四个属性,其类别属性为buys,它有两个不同的取值:{yes,no}。设C1对应类别 buys=yes,C2对应类别 buys=no Age Income Student Rating Buys <=30 High No Fair No <=30 High No Excel No 30-40 High No Fair Yes >40 Medium No Fair Yes >40 Low Yes Fair Yes >40 Low Yes Excel No 30-40 low Yes Excel Yes

22、 Age Income Student Rating Buys <=30 Medium No Fair No <=30 Low Yes Fair Yes >40 Medium Yes Fair Yes <=30 Medium Yes Excel Yes 30-40 Medium No Excel Yes 30-40 High Yes Fair Yes >40 Medium No Excel No (a) 为什么朴素贝叶斯分类称为“朴素”? 根据上面训练数据集,采用朴素贝叶斯分类方法对下列未知样本进行分类,并给出具体步骤,其中未知样本为:X=(age=“<30”,income=medium,student=yes,rating=fair)

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服