资源描述
大数据平台搭建与配置管理
《大数据平台搭建与配置管理》期中试题
期中试题(闭卷B)
题 号
一
二
三
四
五
六
七
八
九
十
成绩
满 分
30
20
20
30
100
得 分
【本套试卷共有4大题,计66小题】
一、选择题(20题,每题1.5分,共30分)
1、欲把当前目录下的file1.txt复制为file2.txt,以下正确的命令是()。
A. copy file1.txt file2.txt
B. cp file1.txt | file2.txt
C. cat file2.txt file1.txt
D. cat file1.txt > file2.txt
2、下面哪个命令可以用来切换使用者的身份()。
A. passwd
B. log
C. who
D. su
3、以下哪个不是HDFS的守护进程()。
A. datanode
B. namenode
C. secondarynamenode
D. mrappmaster/yarnchild
4、Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是()。
A. 32MB
B. 64MB
C. 128MB
D. 256MB
5、HDFS集群中的namenode职责不包括()。
A. 维护HDFS集群的目录树结构
B. 维护HDFS集群的所有数据块的分布、副本数和负载均衡
C. 负责保存客户端上传的数据
D. 响应客户端的所有读写数据请求
6、下列关于HDFS的描述正确的是()。
A. 如果 NameNode 宕机,SecondaryNameNode 会接替它使集群继续工作
B. HDFS集群支持数据的随机读写
C. NameNode磁盘元数据不保存Block的位置信息
D. DataNode通过长连接与NameNode保持通信
7、MapReduce是()上的并行计算。
A. 运行于大规模集群
B. 运行于磁盘
C. 运行于小规模集群
D. 运行在复杂的系统中
8、MapReduce框架会将Map程序就近地在()数据所在的节点运行。
A. HDFS
B. Spark
C. MapReduce
D. Zookeeper
9、MapReduce为了保证任务的正常执行,采用()等多种容错机制。
A. 重复执行
B. 重新开始整个任务
C. 直接丢弃执行效率低的作业
D. 以上都是
10、ZooKeeper是集群的(),监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。
A. 领导者
B. 执行者
C. 管理者
D. 以上都不是
11、ZK提供了一定的()可以用来获取一个顺序增长的,可以在集群环境下使用的ID。
A. 函数
B. 接口
C. 方法
D. 类
12、名称空间由()组成。
A. 磁盘寄存器
B. 表
C. 内存寄存器
D. 数据寄存器
13、hive数据仓库中的数据,不可能的来源有哪些?()
A. Mysql或Oracle数据库
B. 行为数据
C. 业务数据系统
D. 娱乐资料
14、解压.tar.gz结尾的HBase压缩包使用的Linux命令是什么?()
A. tar -vf
B. tar
C. tar -zx
D. tar -zxvf
15、下以下数据第三列,应该用哪种数据类型存储: 1,zhangsan,[90,79.88]。()
A. map
B. int
C. array
D. struct
16、查询速度的提升是以额外的()为代价的。
A. 创建索引
B. 创建索引和存储索引
C. 删除索引
D. 存储索引
17、当客户端发起一个Put请求时,首先它从()表中查出该Put数据。
A. hbase:meta
B. hbase:value
C. -ROOT-
D. hbase:key
18、HBase构建二级索引的实现方式有哪些?()
A. MapReduce
B. Hive
C. Bloom Filter
D. Filter
19、Storm将()组成的网络抽象成Topology。
A. Spouts和Bolts
B. 字段
C. GFS
D. Tuple
20、Storm运行在分布式集群中,其运行任务的方式与()类似。
A. HDFS
B. HBase
C. Hadoop
D. Zookeeper
二、填空题(20题,每题1分,共10分)
21、链接分为: 。
22、JDK下解释执行Java的程序是 。
23、 是客户端需要执行的一个工作单元。
24、HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的 。
25、HDFS不适合用在 的应用场合。
26、HDFS集群中只有唯一一个名称节点,该节点负责所有的 。
27、Map的输出结果首先被写入 。
28、磁盘包含机械部件,它是通过 和 来寻址定位数据。
29、Shuffle优化的原则是给Shuffle过程尽可能多的 。
30、ZooKeeper允许分布式进程通过共享的 相互协调。
31、分布式应用正在运行的一组系统称为 。
32、ZooKeeper类通过其构造函数提供 功能。
33、Hive中创建 的目的就是在查询一个表中某列值时提升速度。
34、使用 命令可以创建一个指定名字的表。
35、WHERE子句是一个 。
36、HBase主要用来存储 和 的松散数据。
37、在HBase中执行 操作时,并不会删除数据旧的版本。
38、 服务器负责存储和维护分配给自己的 。
39、Storm可以用来实时处理新数据和 。
40、Topology中每一个计算组件都有一个 执行度。
三、判断题,正确填“T”,错误填“F”(20题,每题1分,共20分)
41、Hive本地模式和远程模式,最关键的差别是存储元数据的mysql数据库的安装位置是在本地还是在远端。()
42、Hive数据类型中date类型是与时区无关的类型。()
43、Hive数据类型中,Timestamp类型是与时区无关的类型。()
44、Hive中的表,对应hdfs中文件的目录。()
45、外部表和内部表的差别,只是需要添加External关键词就可以了。()
46、删除外部表,只会删除外部表的元数据信息,并不会将外部表的数据删除。()
47、删除外部表,会同时删除外部表的数据和元数据。()
48、在Hive中,执行分桶操作,具体哪个值,分到哪个桶中,可以通过对数据进行Hash运算取得。()
49、HBase是一套高性能的分布式数据集群,必须在大型机或者高性能的服务器上进行搭建。()
50、HBase是Apache的Hadoop项目的子项目,利用Hadoop HDFS作为其文件存储系统,适合于非结构化数据存储。()
51、MapReduce程序可以直接读取HBase内存储的数据内容。()
52、HBase系统适合进行多表联合查询以及复杂性读写操作。()
53、Hadoop是IBM公司开发的一款商用大数据软件。()
54、Hadoop是一个能够对大量数据进行分布式处理的软件框架,能够处理 PB 级数据。()
55、Hadoop存储系统HDFS的文件是分块存储,每个文件块默认大小为32MB。()
56、HDFS系统为了容错保证数据块完整性,每一块数据都采用2份副本。()
57、HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行。()
58、用户可以通过” hadoop fs –put ”命令获取远端文件数据。()
59、Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持()。
60、Ganglia不仅可以进行监控,也可以进行报警()。
四、简答题(6题,每题5分,共30分)
61、试论述实现矩阵向量乘法与矩阵乘法采用不同MapReduce策略的原因。
62、试论述HBase的三层结构中各层次的名称和作用。
答:
63、Storm集群中的 Master节点和Work节点各自运行什么后台进程?这些进程又分别负责什么工作?
答:
64、试论述Storm框架的工作流程。
答:
65、试论述Hadoop和谷歌的mapreduce、gfs等技术之间的关系。
答:
66、试论述Hadoop在各个领域的应用情况。
答:
《大数据平台搭建与配置管理》期中标答
期中标答B(闭卷)
题 号
一
二
三
四
五
六
七
八
九
十
成绩
满 分
30
20
20
30
100
得 分
一、选择题(20题,每题1.5分,共30分)
1-5:DDDCD
6-10:CAAAC
11-15:BDDDC
16-20:BAAAC
二、填空题(20题,每题1分,共20分)
21、软链接和硬链接
22、java.exe
23、job
24、完整性
25、低延迟
26、元数据的管理
27、缓存
28、磁头移动 盘片的转动
29、内存
30、分层命名空间
31、集群
32、connect
33、索引
34、CREATE TABLE
35、逻辑表达式
36、非结构化 半结构化
37、更新
38、Region Region
39、更新数据库
40、并行
三、判断题(20题,每题1分,共20分)
41-45:FFTTF
46-50:TFTFT
51-55:TFFTF
56-60:FFFFT
四、简答题(6题,每题5分,共60分)
61、
答:矩阵向量乘法:
Map函数:每个Map任务将整个向量V和矩阵M的一个文件块作为输入。对每个元素Mij,Map任务会产生键值对。
Reduce函数:Reduce任务将所有与给定键i关联的值相加即可得到<i,xi>。
矩阵乘法:
1.自然连接:
Map函数:对每个矩阵元素My产生一个键值对,对每个矩阵元素Njk产生一个键值对。
Reduce函数:对每个相同键j,输出所有满足形式<j,<i,k,mijnjk>>的元组。
62、
答:
63、
答:Storm采用“Master-Worker”的节点方式:
Master节点运行名为“Nimbus”的后台程序,负责在集群范围内分发代码、为Worker分配任务和监测故障。
Worker节点运行名为“Supervisor”的后台程序,负责监听分配给它所在机器的工作,即根据Nimbus分配的任务来决定启动或停止Worker进程,一个Worker节点上同时运行若干个Worker进程。
64、
答:
65、
答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduce是针对谷歌MapReduce的开源实现。
66、
答:略。
第 9 页 共 9 页
展开阅读全文