2023年Hadoop试题试题库完整.docx

资源描述

1. 如下哪一项不属于Hadoop可以运行模式___C___。 A. 单机（当地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop作者是下面哪一位__B。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序一般与NameNode在同一种节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认 Block Size 大小是 ___B___。 A. 32MB B. 64MB C. 128MB D. 256M 5. 下列哪项一般是集群最重要瓶颈——C__。 A. CPU B. 网络 C. 磁盘IO D. 内存 6. 下列有关MapReduce说法不对的是C_。 A. MapReduce是一种计算框架 B. MapReduce来源于google 学术论文 C. MapReduce程序只能用java语言编写 D. MapReduce隐藏了并行计算细节，以便使用 8. HDFS是基于流数据模式访问和处理超大文献需求而开发，具有高容错、高可靠性、高可扩展性、高吞吐率等特性，适合读写任务是-D____o A. 一次写入，少次读 B. 一再写入，少次读 C. 一再写入，一再读 D. 一次写入，一再读 9. HBase依托__A存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase依赖___D___提供强大计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 11. HBase依赖___A___提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 12. 下面与HDFS类似框架是___C____? A. NTFS B. FAT32 C. GFS D. EXT3 13, 有关SecondaryNameNode下面哪项是对的 —C—。 A, 它是NameNode 热备 B. 它对内存没有规定 C, 它目是协助NameNode合并编辑日志，减少NameNode启动时间 D. SecondaryNameNode 应与 NameNode 布署到一种节点 14. 大数据特点不波及下面哪一项___D___。 A. 巨大数据量 B. 多构造化数据 C. 增长速度快 D. 价值密度高 HBase测试题 1. HBase来源于哪一项？ C A The Google File System B MapReduce C BigTable D Chubby 2. 下面对HBase描述哪些是对的？ B、C、D A不是开源 B是面对列 C是分布式 D是一种NoSQL数据库 3. HBase依托（）存储底层数据A A HDFS B Hadoop C Memory D MapReduce 4. HBase依赖（）提供消息通信机制A A Zookeeper B Chubby C RPC D Socket 5. HBase依赖（）提供强大计算能力D A Zookeeper B Chubby C RPC D MapReduce 6. MapReduce与HBase 关系，哪些描述是对的？ B、C A两者不可或缺，MapReduce是HBas。可以正常运行保证 B两者不是强关联关系，没有MapReduce，HBase可以正常运行 C MapReduce可以直接访问HBase D它们之间没有任何关系 7. 下面哪些选项对的描述了 HBase 特性？ A、B、C、D A高可靠性 B高性能 C面对列 D可伸缩 8. 下面与Zookeeper类似框架是？ D A Protobuf B Java C Kafka D Chubby 9. 下面与HDFS类似框架是？ C A NTFS B FAT32 C GFS D EXT3 10. 下面哪些概念是HBase框架中使用？ A、C A HDFS B GridFS C Zookeeper D EXT3 第二部分：HBase关键知识点 11. LSM含义是？ A A日志构造合并树 B二叉树 C平衡二叉树 D基于日志构造合并树 12. 下面对LSM构造描述对的是？ A、C A次序存储 B直接写硬盘 C需要将数据Flush到磁盘 D是一种搜索平衡树 13. LSM更能保证哪种操作性能？ B A读 B写 C随机读 D合并 14. LSM 读操作和写操作是独立？ A A是。 B否。 C LSM并不辨别读和写 D LSM中读写是同一种操作 15. LSM构造数据首先存储在（）。B A硬盘上 B内存中 C磁盘阵列中 D闪存中 16 HFile数据格式中 Data字段用于（）。A A存储实际KeyValue数据 B存储数据起点 C指定字段长度 D存储数据块起点 17 HFile数据格式中Metaindex字段用于（）。D A Meta块长度 B Meta块结束点 C Meta块数据内容 D Meta块起始点 18 HFile数据格式中Magic字段用于（）。A A存储随机数，防止数据损坏 B存储数据起点 C存储数据块起点 D指定字段长度 19 HFile数据格式中KeyValue数据格式，下列选项描述对的是（）°A、D A是byte[]数组 B没有固定构造 C数据大小是定长 D有固定构造 20 HFile数据格式中KeyValue数据格式中Value部分是（）。C A拥有复杂构造字符串 B字符串 C二进制数据 D压缩数据第三部分：HBase高级应用简介 31 HBase中批量加载底层使用（）实现。A A MapReduce B Hive C Coprocessor D Bloom Filter 32. HBase性能优化波及下面哪些选项？ A、B、C、D A读优化 B写优化 C配置优化 D JVM优化 33. Rowkey设计原则，下列哪些选项描述是对的？A、B、C A尽量保证越短越好 B可以使用中文 C可以使用字符串 D自身是无序 34. HBase构建二级索引实现方式有哪些？ A、B A MapReduce B Coprocessor C Bloom Filter D Filter 35, 有关HBase 二级索引描述，哪些是对的？A、B A关键是倒排表 B二级索引概念是对应Rowkey这个“一级”索引 C二级索引使用平衡二叉树 D二级索引使用LSM构造 36, 下列有关Bloom Filter 描述对的是？ A、C A是一种很长二进制向量和一系列随机映射函数 B没有误算率 C有一定误算率 D可以在Bloom Filter中删除元素第四部分：HBase安装、布署、启动 37, HBase官方版本可以安装在什么操作系统上？ A、B、C A CentOS B Ubuntu C RedHat D Windows 38. HBase虚拟分布式模式需要（）个节点？ A A 1 B 2 C 3 D至少3个 39. HBase分布式模式最佳需要（）个节点？ C A 1 B 2 C 3 D 至少有关hadoop 选择题 1、Doug Cutting所创立项目名称都受到其家人启发，如下项目不是由他创立项目是 A. Hadoop B. Nutch C. Lucene D. Solr 答案：D 2、配置Hadoop时，JAVA_HOME波及在哪一种配置文献中 A. hadoop-default.xml B. hadoop-env.sh C. hadoop-site.xml D. configuration.xsl 答案：B 知识点：hadoop配置 3、Hadoop 配置文献中，hadoop-site.xm l 显示覆盖 hadoop-default.xml 里内容。在版本0.2 0中，hadoop-site.xm l被分离成三个XML文献，不波及 A. conf-site.xml B. mapred-site.xml C. core-site.xml D. hdfs-site.xml 答案：A 知识点：hadoop配置 4、HDFS默认目前工作目录是/user/$USER,fs.default.name 值需要在哪个配置文献内阐明 A. mapred-site.xml B. core-site.xml C. hdfs-site.xml D. 以上均不是答案：B 知识点：hadoop配置 5、有关Hadoop单机模式和伪分布式模式说法，对的是 A. 两者都起守护进程，且守护进程运行在一台机器上 B. 单机模式不使用HDFS，但加载守护进程 C. 两者都不与守护进程交互，防止复杂性 D. 后者比前者增长了 HDFS输入输出以及可检查内存使用状况答案：D 知识点：hadoop配置 6、下列有关Hadoop API 说法错误是 A. Hadoop 文献API不是通用，只用于HDFS文献系统 B. Configuration类默认实例化措施是以HDFS系统资源配置为基础 C. FileStatus对象存储文献和目录元数据 D. FSDataInputStream是 java.io.DataInputStream 子类答案：A //HDFS 7、HDFS NameNode负责管理文献系统命名空间，将所有文献和文献夹元数据保留在一种文献系统树中，这些信息也会在硬盘上保留成如下文献： A. 日志 B. 命名空间镜像 C. 两者都是答案：C 知识点： 8、HDFS namenode保留了一种文献波及哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。 A. 对的 B. 错误答案：B 知识点：在系统启动时候从数据节点搜集而成 9、Secondary namenode就是namenode出现问题时备用节点 A. 对的 B. 错误答案：B 知识点：它和元数据节点负责不一样事情。其重要功能就是周期性将元数据节点命名空间镜像文献和修改日志合并，以防日志文献过大。合并过后命名空间镜像文献也在Secondary namenode保留了一份，以防namenode失败时候，可以恢复。 10、出目前datanode VERSION文献格式中但不出目前namenode VERSION文献格式中是 A. namespacelD B. storagelD C. storageType D. layoutVersion 答案：B 知识点：其他三项是公有°layoutVersion是一种负整数，保留了 HDFS 持续化在硬盘上数据构造格式版本号；namespacelD是文献系统唯一标识符，是在文献系统初次格式化时生成；storageType体现此文献夹中保留是数据节点类型 11、Client在HDFS上进行文献写入时，namenode根据文献大小和配置状况，返回部分datanode信息，谁负责将文献划分为多种Block,根据DataNode地址信息，按次序写入到每一种DataNode块 A. Client B. Namenode C. Datanode D. Secondary namenode 答案：A 知识点：HDFS文献写入 12、HDFS 是基于流数据模式访问和处理超大文献需求而开发，默认最基本存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特性，适合读写任务是 A. 一次写入，少次读写 B. 一再写入，少次读写 C. 一次写入，一再读写 D. 一再写入，一再读写答案：C 知识点：HDFS特性 13、HDFS无法高效存储大量小文献，想让它能处理好小文献，比较可行改善方略不波及 A. 运用SequenceFile、MapFile、Har等方式归档小文献 B. 多Master设计 C. Block大小合适调小 D. 调大namenode内存或将文献系统元数据存到硬盘里答案：D 知识点：HDFS特性 14、有关HDFS文献写入，对的是 A. 支持多顾客对同一文献写操作 B. 顾客可以在文献任意位置进行修改 C. 默认将文献块复制成三份寄存 D. 复制文献块默认都存在同一机架上答案：C 知识点：在HDFS 一种文献中只有一种写入者，并且写操作只能在文献末尾完毕，即只能执行追加操作。默认三份文献块两块在同一机架上，另一份寄存在其他机架上。 15、Hadoop fs中 -get和-put命令操作对象是 A. 文献 B. 目录 C. 两者都是答案：C 知识点：HDFS命令 16、Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误是 A. 安全模式目是在系统启动时检查各个DataNode 上数据块有效性 B. 根据方略对数据块进行必要复制或删除 C. 当数据块最小比例数满足最小副本数条件时，会自动退出安全模式 D. 文献系统容许有修改答案：D 知识点：HDFS安全模式 //MapReduce 17、MapReduce框架提供了一种序列化键/值对的措施，支持这种序列化类可以在Map和Reduce过程中充当键或值，如下说法错误是 A. 实现Writable接类是值 B. 实现WritableComparable<T>接类可以是值或键 C. Hadoop 基本类型 Text 并不实现 WritableComparable<T>接 D. 键和值数据类型可以超过Hadoop自身支持基本类型答案：C 18、如下四个Hadoop预定义 Mapper实现类描述错误是 A. IdentityMapper<K, V>实现 Mapper<K, V, K, V>，将输入直接映射到输出 B. InverseMapper<K, V>实现 Mapper<K, V, K, V>,反转键/值对 C. RegexMapper<K>实现 Mapper<K, Text, Text, LongWritable>,为每个常规体现式匹配项生成一种(match, 1)对 D. TokenCountMapper<K>实现 Mapper<K, Text, Text, LongWritable>,当输入值为分词时，生成(taken, 1)对答案：B 知识点：InverseMapper<K, V>实现 Mapper<K, V, V, K> 19、下列有关HDFS为存储MapReduce并行切分和处理数据做设计，错误是 A. FSDataInputStream 扩展了 DataInputStream 以支持随机读 B. 为实现细粒度并行，输入分片(Input Split)应当越小越好 C. 一台机器也许被指派从输入文献任意位置开始处理一种分片 D. 输入分片是一种记录逻辑划分，而HDFS数据块是对输入数据物理分割答案：B 知识点：每个分片不能太小，否则启动与停止各个分片处理所需开销将占很大一部分执行时间 20、针对每行数据内容为"Timestamp Url” 数据文献，在用JobConf对象conf设置 conf.setlnputFormat(WhichlnputFormat.class)来读取这个文献时，WhichInputFormat 应当为如下 A. TextInputFormat B. KeyValueTextInputFormat C. SequenceFileInputFormat D. NLineInputFormat 答案：B 知识点：四项重要InputFormat类。KeyValueTextInputFormat以每行第一种分隔符为界，分隔符前为key,之后为value,默认制表符为\t 21、有关MapReduce 输入输出，说法错误是 A. 链接多种MapReduce作业时，序列文献是首选格式 B. FileInputFormat中实现 getSplits ()可以把输入数据划分为分片，分片数目和大小任意定义 C. 想完全严禁输出，可以使用NullOutputFormat D. 每个reduce需将它输出写入自己文献中，输出无需分片答案：B 知识点：分片数目在numSplits中限定，分片大小必须不不大于个字节，但不不不大于文献系统块 22、Hadoop Streaming支持脚本语言编写简朴MapReduce程序，如下是一种例子： — input input/filename —output output —mapper ‘dosth.py 5’ — file dosth.py —D mapred.reduce.tasks=1 23、如下说法不对的是 A. Hadoop Streaming使用Unix中流与程序交互 B. Hadoop Streaming容许我们使用任何可执行脚本语言处理数据流 C. 采用脚本语言时必须遵从UNIX 原则输入STDIN，并输出到STDOUT D. Reduce没有设定，上述命令运行会出现问题答案：D 知识点：没有设定特殊reducer，默认使用IdentityReducer 24、在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列有关链接MapReduce作业说法，不对的是 A. Job和JobControl类可以管理非线性作业之间依赖 B. ChainMapper和ChainReducer类可以用来简化数据预处理和后处理构成 C. 使用ChainReducer时，每个mapper和reducer对象均有一种当地JobConf 对象 D. ChainReducer.addMapper()措施中，一般对键/值对发送设置成值传递，性能好且安全性高答案：D 知识点：ChainReducer.addMapper()措施中，值传递安全性高，引用传递性能高 25、下面哪个程序负责HDFS数据存储。答案C datanode a) NameNode b) Jobtracker c) Datanode d) secondaryNameNode e) tasktracker 26. HDfS中 block默认保留几份？答案A默认3分 a) 3份 b) 2 份 c) 1份 d) 不确定 27. 下列哪个程序一般与NameNode在一种节点启动？答案D a) SecondaryNameNode b) DataNode c) TaskTracker d) Jobtracker 28. Hadoop 作者答案 C Doug cutting a) Martin Fowler b) Kent Beck c) Doug cutting 29. HDFS 默认 Block Size 答案：B a) 32MB b) 64MB c) 128MB 30. 下列哪项一般是集群最重要瓶颈：答案：C磁盘 a) CPU b) 网络 c）磁盘IO d) 内存 31. 有关SecondaryNameNode哪项是对的？答案C a) 它是NameNode 热备 b) 它对内存没有规定 c) 它目是协助NameNode合并编辑日志，减少NameNode启动时间 d) SecondaryNameNode 应与 NameNode 布署到一种节点。多选题： 1. 下列哪项可以作为集群管理？答案：ABD a) Puppet b) Pdsh c) Cloudera Manager d) Zookeeper 2. 配置机架感知下面哪项对的：答案ABC a) 假如一种机架出问题，不会影响数据读写 2写入数据时候会写到不一样机架 DataNode中 c)MapReduce会根据机架获取离自己比较近网络数据 3. Client端上传文献时候下列哪项对的？答案B a）数据通过NameNode传递给DataNode b）Client端将文献切分为Block,依次上传 c）Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作 4. 下列哪个是Hadoop运行模式：答案ABC a）单机版 b）伪分布式 c）分布式 5. Cloudera提供哪几种安装CDH 措施？答案：ABCD a）Cloudera manager b）Tarball c）Yum d）Rpm 判断题： 1. Ganglia不仅可以进行监控，也可以进行告警。（对的） 2. Block Size是不可以修改。（错误） 3. Nagios不可以监控Hadoop集群，由于它不提供Hadoop支持。（错误） 4. 假如NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（错误） 5. Cloudera CDH是需要付费使用。（错误） 6. Hadoop是Java开发，因此MapReduce只支持Java语言编写。（错误） 7. Hadoop支持数据随机读写。（错） 8. NameNode负责管理metadata，client端每次读写祈求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（错误） 9. Hadoop自身具有严格权限管理和安全措施保障集群正常运行。（错误） 10. Slave节点要存储数据，因此它磁盘越大越好。（错误） 11. hadoop dfsadmin report命令用于检测HDFS损坏块。（错误） 12. Hadoop默认调度器方略为FIFO （对的） 13. 集群内每个节点都应当配RAID,这样防止单磁盘损坏，影响整个节点运行。（错误） 14. 由于HDFS有多种副本，因此NameNode是不存在单点问题。（错误） 15. 每个map槽就是一种线程。（错误） 16. Mapreduce input split 就是一种 block。（错误） 17. DataNode初次加入cluster 时候，假如log中汇报不兼容文献版本，那需要NameNode执行“Hadoop namenode -format”操作格式化磁盘。（错误） 18. NameNode Web UI 端是 530,它通过 jetty 启动 Web 服务。（错误） 19. Hadoop环境变量中 HADOOP_HEAPSIZE用于设置所有Hadoop守护线程内存。它默认是2 GB （错误）

展开阅读全文