1、大数据分析基础一、基础知识部分习题(共29题,67分)1、 大数据的最显著特征是( )。 (单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高2、 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )。 (单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据3、 下列对大数据特点的说法中,错误的是( )。 (单选题,本题2分) A:数据
2、规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高4、 当前社会中,最为突出的大数据环境是( )。 (单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源5、 下列关于计算机存储容量单位的说法中,错误的是( )。 (单选题,本题2分) A:1KB1MB1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符,6、 下列关于聚类挖掘技术的说法中,错误的是( )。 (单选题,本题2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B:要求同类数据的内容相似度尽可能小 C:要求不同类数据的内
3、容相似度尽可能小 D:与分类挖掘技术相似的是,都是要对数据进行分类处理7、 下列关于大数据的分析理念的说法中,错误的是( )。 (单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据8、 大数据时代,数据使用的关键是( )。 (单选题,本题2分) A:数据收集 B:数据存储 C:数据分析 D:数据再利用9、 数据仓库的最终目的是( )。 (单选题,本题2分) A:收集业务需求 B:建立数据仓库逻辑模型 C:开发数据仓库的应用分析 D:为用户和业务部门提
4、供决策支持10、 支撑大数据业务的基础是( )。 (单选题,本题2分) A:数据科学 B:数据应用 C:数据硬件 D:数据人才11、 在网络爬虫的爬行策略中,应用最为基础的是( )。 (多选题,本题3分) A:深度优先遍历策略 B:广度优先遍历策略 C:高度优先遍历策略 D:反向链接策略 E:大站优先策略12、 当前,大数据产业发展的特点是( )。 (多选题,本题3分) A:规模较大 B:规模较小 C:增速很快 D:增速缓慢 E:多产业交叉融合13、 下列关于数据生命周期管理的核心认识中,正确的是( )。 (多选题,本题3分) A:数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段 B
5、:在不同的数据存在阶段,数据的价值是不同的 C:根据数据价值的不同应该对数据采取不同的管理策略 D:数据生命周期管理旨在产生效益的同时,降低生产成本 E:数据生命周期管理最终关注的是社会效益14、 下列关于基于大数据的营销模式和传统营销模式的说法中,错误的是( )。(多选题,本题3分) A:传统营销模式比基于大数据的营销模式投入更小 B:传统营销模式比基于大数据的营销模式针对性更强 C:传统营销模式比基于大数据的营销模式转化率低 D:基于大数据的营销模式比传统营销模式实时性更强 E:基于大数据的营销模式比传统营销模式精准性更强15、 下列关于脏数据的说法中,正确的是( )。 (多选题,本题3分
6、) A:格式不规范 B:编码不统一 C:意义不明确 D:与实际业务关系不大 E:数据不完整16、 数据再利用的意义在于( )。 (多选题,本题3分) A:挖掘数据的潜在价值 B:实现数据重组的创新价值 C:利用数据可扩展性拓宽业务领域 D:优化存储设备,降低设备成本 E:提高社会效益,优化社会管理17、 按照涉及自变量的多少,可以将回归分析分为( )。 (多选题,本题3分) A:线性回归分析 B:非线性回归分析 C:一元回归分析 D:多元回归分析 E:综合回归分析18、 大数据人才整体上需要具备( )等核心知识。 (多选题,本题3分) A:数学与统计知识 B:计算机相关知识 C:马克思主义哲学
7、知识 D:市场运营管理知识 E:在特定业务领域的知识19、 下列关于大数据的说法中,错误的是( )。 (多选题,本题3分) A:大数据具有体量大、结构单一、时效性强的特征 B:处理大数据需采用新型计算架构和智能算法等新技术 C:大数据的应用注重相关分析而不是因果分析 D:大数据的应用注重因果分析而不是相关分析 E:大数据的目的在于发现新的知识与洞察并进行科学决策20、 在噪声数据中,波动数据比离群点数据偏离整体水平更大。(判断题,本题2分) 是 否21、 对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确。(判断题,本题2分) 是 否22、 一般而言
8、,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。(判断题,本题2分) 是 否23、 具备很强的报告撰写能力,可以把分析结果通过文字、图表、可视化等多种方式清晰地展现出来,能够清楚地论述分析结果及可能产生的影响,从而说服决策者信服并采纳其建议,是数据分析能力对大数据人才的基本要求。(判断题,本题2分) 是 否24、 谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。(判断题,本题2分) 是 否25、 决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代表最终的分类结果,
9、其优点在于易于实现,决策时间短,并且适合处理非数值型数据。(判断题,本题2分) 是 否26、 信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。(判断题,本题2分) 是 否27、 简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。(判断题,本题2分) 是 否28、 啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。(判断题,本题2分) 是 否29、 对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。(判断题,本题2
10、分) 是 否二、数据挖掘部分单选题(共20题,20分)1) ( )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。A.数据清洗 B.数据集成C.数据变换 D.数据归约2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( ) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理3) 以下两种描述分别对应哪两种对分类算法的评价标准? ( ) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Rec
11、all,Precision A. Precision,ROC D. Recall,ROC4) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘5) 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( ) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链6) 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( ) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则7) 下面哪种不属于数据预
12、处理的方法? ( ) A.变量代换 B.离散化 C.聚集 D.估计遗漏值 8) 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? ( ) A.第一个 B.第二个 C.第三个 D.第四个 9) 以下哪种方法不属于特征选择的标准方法: ( ) A.嵌入 B.过滤 C.包装 D.抽样 10) 下面不属于创建新属性的相关方法的是: ( ) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 11) 假设属性income的最大最小
13、值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:( ) A.0.821 B.1.224 C.1.458 D.0.716 12) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: ( ) A.一年级 B.二年级 C.三年级 D.四年级 13) 下列哪个不是专门用于可视化时间空间数据的技术: ( ) A.等高线图 B.饼图 C.曲面图 D.矢量场图 14) 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( ) A.有放回的简单
14、随机抽样 B.无放回的简单随机抽样 C.分层抽样 D 渐进抽样15) 以下哪些算法是分类算法 ( )A.DBSCAN B.C4.5 C.K-Mean D.EM16) 决策树中不包含一下哪种结点 ( )A. 根结点(root node)B. 内部结点(internal node) C. 外部结点(external node) D. 叶结点(leaf node)17) 以下哪项关于决策树的说法是错误的 ( )A. 冗余属性不会对决策树的准确率造成不利的影响 B. 子树可能在决策树中重复多次 C. 决策树算法对于噪声的干扰非常敏感 D. 寻找最佳决策树是NP完全问题18)通过聚集多个分类器的预测来提
15、高分类准确率的技术称为 ( ) A.组合(ensemble) B.聚集(aggregate) C.合并(combination) D.投票(voting)19)在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。 A.曼哈顿距离 B.平方欧几里德距离 C.余弦距离 D.Bregman散度 20) 个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助( )为其顾客购物提供完全个性化的决策支持和信息服务。 A.公司 B.各单位 C.跨国企业 D. 电子商务网站三、计算题(共13分)1、根据下表中信用卡训练样本,判断(女性,年龄介于3145之间,不具学生
16、身份,收入中等)者会不会办理信用卡。请自选两种方法进行计算。 表 信用卡训练样本项目性别年龄学生身分收入办卡1男45否高会2女3145否高会3女2030是低会4男20是低不会5女2030是中不会6女2030否中会7女3145否高会8男3145是中不会9男3145否中会10女20是低会本题可以使用多种方法,没有固定答案。解题方式合理,计算步骤无误即可。首先根据训练样本计算各属性相对于不同分类结果的条件机率:P(性别=女|办卡=会)=5/7 P(性别=女|办卡=不会)=1/3P(年龄=3145|办卡=会)=3/7P(年龄=3145|办卡=不会)=1/3P(学生=否|办卡=会)=5/7 P(学生=否
17、|办卡=不会)=0/3 P(收入=中|办卡=会)=2/7 P(收入=中|办卡=不会)=2/3 再应用朴素贝叶斯分类法进行类别预测:P(办卡=会)=7/10 P(女|会)P(31-45|会)P(否|会)P(中|会)=15/3430.044P(办卡=不会)=3/10 P(会) P(不会) P(女|不会)P(31-45|不会)P(否|不会)P(中|不会)= 0训练样品中对于(女性,年龄介于3145之间,不具学生身份,收入中等)的个人,按照朴素贝叶斯分类会将其分到办信用卡一类中。办卡的概率是(0.044)/(0.044+0)=1(正规化分类的结果P(会)/( P(会)+ P(不会))。所以,使用朴素贝叶斯分类法,会将(女性,年龄介于3145之间,不具学生身份,收入中等)的个人归类到“会”办理信用卡的类别中。