《大数据平台搭建与配置管理》期末试题试卷及答案.docx

资源描述

大数据平台搭建与配置管理《大数据平台搭建与配置管理》期末试题期末试题（闭卷A）题号一二三四五六七八九十成绩满分 30 20 20 30 100 得分【本套试卷共有4大题，计66小题】一、选择题（20题，每题1.5分，共30分） 1、以下哪一位是Hadoop的作者（）。 A. Matrin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 2、以下哪个命令可以终止一个用户的所有进程（）。 A. kill B. killall C. skill D.skillall 3、用“rm -i”，系统会提示什么来让你确认（）。 A. 是否真的删除 B. 是否有写的权限 C. 命令行的每个选项 D.文件的位置 4、HDFS默认Block大小是（）。 A. 32MB B. 64MB C. 128MB D. 256MB 5、下列哪项通常是集群的最主要瓶颈（）。 A. CPU B. 网络 C. 磁盘IO D. 内存 6、以下与HDFS类似的框架是（）。 A. NTFS B. FAT32 C. GFS D.EXT3 7、有关MapReduce的输入输出，说法错误的是（）。 A. 链接多个MapReduce作业时，序列文件是首选格式 B. FileInputFormat中实现的getSplits()可以把输入数据划分为分片，分片数目和大小任意定义 C. 想完全禁止输出，可以使用NullOutputFormat D. 每个reduce需将它的输出写入自己的文件中，输出无需分片 8、对HDFS内的文件进行操作，以下说法正确的是（）。 A. HDFS提供了Shell的操作接口 B. 不允许对文件进行列表查看 C. 文件操作命令与Linux不相似 D. 采用Windows系统对文件进行操作 9、列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是？（） A. FSDataInputStream扩展了DataInputStream以支持随机读 B. 为实现细粒度并行，输入分片(Input Split)应该越小越好 C. 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D. 输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割 10、ZooKeeper允许分布式进程通过共享的（）相互协调。 A. 锁 B. 表 C. 分层命名空间 D. 内存 11、名称空间由（）组成。 A. 磁盘寄存器 B. 表 C. 内存寄存器 D. 数据寄存器 12、下面哪些概念是HBase框架中使用的？（） A. Hadoop B. GridFS C. Zookeeper D. EXT3 13、Hive中创建（）的目的就是在查询一个表中某列值时提升速度。 A. 行 B. 列 C. 索引 D. 表 14、Hive可处理大量数据，它最重视的性能是可测量性，延展性，什么和对于输入格式的宽松匹配性。（） A. 较低恢复性 B. 容错性 C. 快速查询 D. 低延迟 15、对数据仓库的操作，一般不包括哪些方面？（） A. 数据抽取 B. 数据爬取 C. 数据转换 D. 数据装载 16、下面对HBase的描述哪些是正确的？（） A. 不是开源的 B. 是面向列的 C. 是分布式的 D. 是一种NoSQL数据库 17、HBase依赖（）提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 18、面哪些概念是HBase框架中使用的？（） A. HDFS B. GridFS C. Zookeeper D. EXT3 19、以下不是Storm特点的是？（） A. 整合性 B. 可靠的消息处理 C. 可扩展性 D. 高吞吐量 20、Storm支持什么？（） A. 容错和水平扩展 B. 复杂的API C. 高吞吐量 D. 跨平台二、填空题（20题，每题1分，共10分） 21、网络管理两个重要任务分别是：和。 22、Linux内核引导时，从文件中读取要加载的文件系统。 23、指令可以显示目录的大小。 24、ResourceManager默认的WebUI访问端口号为：。 25、负责HDFS数据存储。 26、格式化HDFS系统的命令为。 27、在MapReduce中，一个存储在分布式文件系统中的大规模数据集会被切分成许多独立的 28、Reduce函数的任务就是将输入的一系列具有的键值对以某种方式组合起来。 29、MapReduce框架会为每个输入一个数据子集。 30、ZooKeeper是集群的，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。 31、Zookeeper主要负责调度。 32、ZK提供了一定的可以用来获取一个顺序增长的，可以在集群环境下使用的ID。 33、利用SQL语句进行数据的、、。 34、Hive查询有一定的延时，常被用来进行和。 35、大Hive不支持响应速度。 36、HBase性能优化包含、、、。 37、HFile数据格式中的Magic字段用于：。 38、rowkey是一个二进制码流，最大长度是，内部存储为字节数组。 39、Storm将和组成的网络抽象成Topology。 40、FieldsGrouping:按照分组，保证相同字段的分配到同一个Task中。三、判断题，正确填“T”，错误填“F”（20题，每题1分，共20分） 41、如果命令在前台运行，那么用户在此进程结束钱不能继续使用当前的shell（）。 42、在用户请求访问的资源共享中包含“guest only = yes”参数，那么用户就会以“guest account=”参数指定的身份连接，而不再使用用户的其他身份（）。 43、一个文件名字为cc.z，可以用tar命令来解压缩（）。 44、Ganglia不仅可以进行监控，也可以进行告警（）。 45、Hadoop支持数据的随机写（）。 46、每个Map槽就是一个线程（）。 47、为了让Reduce可以并行处理Map的结果，需要对Map的输出进行一定的分区、排序、合并、归并。（） 48、Map任务得到的中间结果交给Reduce处理，这个过程称之为Shuffle过程。（） 49、不同Reduce任务之间不会发生任何信息交换。（） 50、delete或setData不需要明确更新的Znode的版本号。（） 51、watch事件是可以重复使用的触发器。（） 52、分布式应用可以在给定时间（同时）在网络中的多个系统上运行。（） 53、Hive有主键或自增键。（） 54、对于SQL而言，DML就是增删改查询的SQL语句。（） 55、创建外部表时，仅仅只是记录数据所在的位置。（） 56、HBase是Apache的Hadoop项目的子项目，利用Hadoop HDFS作为其文件存储系统，适合于非结构化数据存储。（） 57、对于HBase系统的使用场景，需要进行多表联合查询。（） 58、使用Shell命令create在HBase系统中添加新表操作。（） 59、Bolts可以将处理后的Tuple作为新的Streams发送给其他Bolts。（） 60、Stream每一个源头都被抽象为Bolts。（）四、简答题（6题，每题5分，共30分） 61、试论述分布式文件系统设计的需求。答： 62、分布式文件系统通过哪两个节点实现较高水平扩展？答： 63、请阐述HBase和BigTable的底层技术的对应关系。答： 64、HBase中的行键、列键以及时间戳的概念是什么？答： 65、HBase与传统数据库的关系? 答： 66、HStore的工作原理是什么？答：《大数据平台搭建与配置管理》期末标答期末标答A（闭卷）题号一二三四五六七八九十成绩满分 30 20 20 30 100 得分一、选择题（20题，每题1.5分，共30分） 1-5：BCAAC 6-10：CBABC 11-15：DCCBB 16-20：（BCD）D（AC）DA 二、填空题（20题，每题1分，共20分） 21、监控控制 22、/etc/fstad 23、du 24、50070 25、datanode 26、hdfs namenode-format 27、小数据块 28、相同键 29、Map任务 30、管理者 31、分布式任务 32、接口 33、查询、汇总、分析 34、静态数据分析挖掘 35、实时查询 36、读优化、写优化、配置优化、 JVM优化 37、存储随机数，防止数据损坏 38、64KB 39、Spouts Bolts 40、字段 Tuple 三、判断题（20题，每题1分，共20分） 41-45：TTFFF 46-50：FTTTF 51-55：FTFTT 56-60：TFTTF 四、简答题（6题，每题5分，共60分） 61、答： 62、答：分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”或者也被成为“名称节点”，另一类叫“从节点”或者也被成为“数据节点”。 63、答： 64、答：略。 65、答： 66、答：每个Store对应了表中的一个列族的存储。每个Store包括一个MenStore缓存和若干个StoreFile文件。MenStore是排序的内存缓冲区，当用户写入数据时，系统首先把数据放入MenStore缓存，当MenStore缓存满时，就会刷新到磁盘中一个StoreFile文件中，当单个StoreFile文件大小超过一定的阈值时，就会触发文件分裂操作。第 11 页共 11 页

展开阅读全文