《大数据平台搭建与配置管理》期末考试卷及答案.docx

资源描述

1、大数据平台搭建与配置管理大数据平台搭建与配置管理期末试题期末试题（闭卷B）题号一二三四五六七八九十成绩满分30202030100得分【本套试卷共有4大题，计66小题】一、选择题（20题，每题1.5分，共30分）1、对文件进行归档的命令是（）。A. gzipB. tarC. dumpD. dd2、如何删除/tmp下的所有文件及子目录（）。A. del /tmp/*B. rm -rf /tmpC. rm -Ra /tmp/*D. rm -rf /tmp/*3、从后台启动进程，应在命令的结尾加上符号（）。A.&B. C. #D.$4、请问以下哪个命令组成是错误的（）。A. sbin/stop-

2、dfs.shB. sbin/hdfs dfsadmin -reportC. bin/hadoop namenode -formatD. bin/hadoop fs -cat /hadoopdata/my.txt5、下面关于使用hive的描述中不正确的是（）。A. hive中的join查询只支持等值链接，不支持非等值连接B. hive默认仓库路径为/user/hive/warehouse/C. hive的表一共有两种类型，内部表和外部表D. hive支持数据删除和修改6、关于HDFS集群中的DataNode的描述不正确的是（）。A. DataNode之间都是独立的，相互之间不会有通信B. 存储客

3、户端上传的数据的数据块C. 一个DataNode上存储的所有数据块可以有相同的D. 响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑7、对Hadoop中JobTacker的工作角色，以下说法不正确的是（）。A. 作业调度B. 分配任务C. 监控CPU运行效率D. 监控任务执行进度8、下列关于MapReduce说法不正确的是（）A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节，方便使用9、查看HDFS系统运行状态的Shell命令，以下正确的是（）。

4、A. hdfs -reportB. dfsadmin -reportC. hadoop reportD. hdfs dfsadmin -report10、Zookeeper使用（）协议来提供一致性。A. ALIB. GUNC.TCPD. ZAB11、以下和Zookeeper框架类似的是？（）A. ChubbyB. JavaC. KafkaD. Protobuf12、通过一次选举过程，被选举的机器节点被称为（）。A. 管理者B. LeaderC. 执行者D. Znode13、从语法上看，以下语句，哪个是正确的？（）A. create table tb1 (id int, name string)

5、;B. alter table tb4 add columns(age int, sex boolean);C. create table tb2 like tb1;D. create table tb4 as select * from tb2;14、开发hive远程服务程序，不需要添加哪些依赖包？（）A. hadoop libB. hive libC. jdbc连接包mysql-connector-java-5.1.26.jarD. webservice相关lib包15、下Hive中时间类型有哪些？（）A. TimeB. DateC. DatetimeD. Times16、LSM结构的数据

6、首先存储在（）。A. 内存中B. 磁盘中C. 行中D. 单元中17、HBase依赖（）提供强大的计算能力。A. ProtobufB. JavaC. KafkaD. MapReduce18、散列就是让（）分散在集群的各个机器上，尽量不要让它集中在一个地方。A. rowkeyB. keyvalueC. 行号D. 列族19、Worker节点根据（）来决定启动或停止Worker进程。A. NimbusB. StreamsC. TopoD. Supervisor20、Storm可方便地与（）进行整合。A.队列系统、数据库系统 B. 分布式系统C. KafkaD. 以上都不是二、填空题（20题，每题1分，

7、共10分）21、安装JDK后，Java的开发工具在目录。22、类的定义包括声明和声明。23、为了能使用Java中已经提供的类，我们需要用import语句来引入所需要的类。语句import java.io.*;中引入了包的所有类。24、HDFS采用了的简单文件模型。25、HDFS主要面向而设计的，采用读取具有很高的。26、在传统的文件系统中，为了提高磁盘的读写效率，一般以为单位。27、在Map任务全部结束之前，这些溢写文件会被成一个大的文件。28、每个Map任务都会被分配一个缓存，Map的输出结果不是立即写入，而是首先写入。29、在写入缓存之前，key和value值都会

8、被成字节数组。30、客户端维护连接，通过该连接发送请求，获取响应，获取监视事件以及发送心跳。31、ZooKeeper框架最初是在上构建的。32、在集群中运行的每台机器被称为。33、数据库中的存在于和数据库同名的HDFS目录中。34、Hive的目录由参数来指定。35、用户可以通过选项来忽略异常。36、为了方便在HBase上进行数据处理，为HBase提供了高效、便捷的RDBMS数据导入功能。37、表在水平方向由一个或多个组成。38、HBase采用、、和进行索引。39、Spout作为Storm中的。40、是Storm中对数据进行的抽象。三、判断题，正确填“T”，错误填“

9、F”（20题，每题1分，共20分）41、在使用硬链接时，我们可以使用硬链接跨越不同的文件系统与另一个目录连接（）。42、如果用户拥有目录的写许可，则该用户可以创建、删除或修改目录中的任何文件或子目录，甚至属于其他用户的文件和子目录（）。43、在系统日志文件/var/log/wtmp中保存了所有的用户登录、退出信息，以及系统的启动、停机记录（）。44、HDFS可以实现磁盘配额和文件访问权限等功能。（）45、数据存取策略包括数据存放、数据写入。（）46、HDFS提供了一个API可以确定一个数据节点所属的机架ID。（）47、如果没有指定输出目录或者它已经存在，作业就不会被提交，并返回错误。（）48、

10、ClientNode通过调用JobTracker的submitJob()方法，告知JobTracker准备执行作业。（）49、任务或作业的信息不包括状态消息。（）50、在Zookeeper中，znode是一个跟Unix文件系统路径相似的节点。（）51、Zookeeper使用Watcher察觉事件信息。（）52、HBase内置有ZooKeeper，也可以使用外部ZooKeeper。（）53、0.13版本以上的Hive不具有半连接。（）54、Hive支持的子查询时放在FROM子句中的。（）55、Hive支持任意层次的子查询。（）56、Zookeeper中保存了-ROOT-表的地址和Master的地

11、址。（T）57、Region服务器是HBase中最核心的模块。（T）58、HBase自身具备数据复制和维护数据副本的功能。（F）59、Bolt是Storm中的消息源。（F）60、一个Spout或Bolt都会有一个Task线程来运行。（F）四、简答题（6题，每题5分，共30分）61、试论述HLog的工作原理。答：62、HBase的数据分区机制是什么？答： 63、试论述关系数据库在哪些方面无法满足Web2.0应用的需求。答： 64、NoSQL数据库的四大类型是什么？答：65、什么是软无硬状态?答： 66、MapReduce是处理大数据的有力工具，但不是每个任务都可以使用MapReduce来进行处理

12、。试论述适合用MapReduce来处理的任务或者数据集需满足怎样的需求？答：大数据平台搭建与配置管理期末标答期末标答B（闭卷）题号一二三四五六七八九十成绩满分30202030100得分一、选择题（20题，每题1.5分，共30分）1-5：BDABD6-10：（AC）CCDD11-15：AB（ABCD）DB16-20：ADAAA二、填空题（20题，每题1分，共20分）21、bin22、变量方法23、java.io24、“一次写入，多次读取”25、大规模数据批量处理流式数据数据吞吐率26、数据块27、归并磁盘28、磁盘缓存29、序列化30、TCP31、“Yahoo!32、节点33、表

13、34、hive.metastore.warehouse.dir35、IF NOT EXIST36、Sqoop37、列族38、行键、列族、列限定符和时间戳39、消息源40、数据流三、判断题（20题，每题1分，共20分）41-45：FTTFF46-50：TTTFT51-55：TTFTT56-60：TTFFF四、简答题（6题，每题5分，共60分）61、答：HBase系统为每个Region服务器配置了一个HLog文件吗，它是一种预写式日志，用户更新数据必须首先写入日志后，才能写入MemStore缓存，并且知道MemStore缓存内容对应的日志写入磁盘，该缓存内容才能被刷鞋到磁盘。62、答：

14、HBase采用分区存储，一个大的表会被分拆多个Region，这些Region会被分发到不同的服务器上实现分布式存储。63、答：关系数据库已经无法满足Web2.0分需求。主要表现在一下几个方面：1.无法满足海量数据的管理需求2.无法满足数据高并发的需求3.无法满足高可扩展性和高可用性的需求64、答：键值数据库、列族数据库、文档数据库、图数据库。65、答：软状态是与硬状态相对应的一种提法。数据库保存的数据是硬状态时，可以保证数据一致性，即保证数据一直是正确的。软状态时指状态可以由一段时间不同步具有一定的滞后性。66、答：适合用MapReduce来处理的数据集，需要满足一个前提条件：待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。第 9 页共 9 页

展开阅读全文