ImageVerifierCode 换一换
格式:DOC , 页数:13 ,大小:48.04KB ,
资源ID:9348261      下载积分:8 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/9348261.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(2024年hadoop常见笔试题答案.doc)为本站上传会员【a199****6536】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

2024年hadoop常见笔试题答案.doc

1、Hadoop测试题 一.填空题,1分(41空),2分(42空)共125分 1. (每空1分) datanode 负责HDFS数据存储。 2. (每空1分)HDFS中的block默认保存 3 份。 3. (每空1分) ResourceManager 程序一般与 NameNode 在一个节点开启。 4. (每空1分)hadoop运行的模式有: 单机模式 、 伪分布模式 、 完全分布式 。 5. (每空1分)Hadoop集群搭建中常用的4个配备文献为: core-site.xml 、 hdfs-site.xml 、 mapr

2、ed-site.xml 、 yarn-site.xml 。 6. (每空2分)HDFS将要存储的大文献进行 分割 , 分割 后存储在既定的存储块 中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而处理了大文献储存与计算的需求。 7. (每空2分)一个HDFS集群包括两大部分,即 namenode 与 datanode 。一般来说,一个集群中会有一个 namenode 和多个 datanode 共同工作。 8. (每空2分) namenode 是集群的主服务器,重要是用于对HDFS中所有的文献及内容数据进行维护,并不停读取统计集群中 datanod

3、e 主机情况与工作状态,并通过读取与写入镜像日志文献的方式进行存储。 9. (每空2分) datanode 在HDFS集群中担任任务详细执行角色,是集群的工作节点。文献被提成若干个相同大小的数据块,分别存储在若干个 datanode 上, datanode 会定期向集群内 namenode 发送自己的运行状态与存储内容,并依照 namnode 发送的指令进行工作。 10. (每空2分) namenode 负责接收客户端发送过来的信息,然后将文献存储位置信息发送给 client ,由 client 直接与 datanode 进行联系,从而进行部分文献的运算与操作。 11. (每空

4、1分) block 是HDFS的基本存储单元,默认大小是 128M 。 12. (每空1分)HDFS还能够对已经存储的Block进行多副本备份,将每个Block最少复制到 3 个相互独立的硬件上,这么能够迅速恢复损坏的数据。 13. (每空2分)当客户端的读取操作发生错误的时候,客户端会向 namenode 报告错误,并祈求 namenode 排除错误的 datanode 后,重新依照距离排序,从而取得一个新的 的读取途径。假如所有的 datanode 都报告读取失败,那么整个任务就读取失败。 14. (每空2分)对于写出操作过程中出现的问题, FSDat

5、aOutputStream 并不会立即关闭。客户端向Namenode报告错误信息,并直接向提供备份的 datanode 中写入数据。备份 datanode 被升级为首选 datanode ,并在其他2个 datanode 中备份复制数据。NameNode对错误的DataNode进行标识以便后续对其进行处理。 15. (每空1分)格式化HDFS系统的命令为: hdfs namenode –format 。 16. (每空1分)开启hdfs的shell脚本为: start-dfs.sh 。 17. (每空1分)开启yarn的shell脚本为

6、 start-yarn.sh 。 18. (每空1分)停止hdfs的shell脚本为: stop-dfs.sh 。 19. (每空1分)hadoop创建多级目录(如:/a/b/c)的命令为: hadoop fs –mkdir –p /a/b/c 。 20. (每空1分)hadoop显示根目录命令为: hadoop fs –lsr 。 21. (每空1分)hadoop包括的四大模块分别是: Hadoop common 、 HDFS 、 Mapreduce 、 yarn 。 22. (每空1分)namenod

7、e默认的WebUI访问端口号为: 50070 。 23. (每空1分)ResourceManager默认的WebUI访问端口号为: 8088 。 24. (每空1分)historyServer默认的WebUI访问端口号为: 19888 。 25. (每空1分)修改blocksize大小的属性是: dfs.blocksize ,在 hdfs-site.xml 配备文献里。 26. (每空1分)HDFS中namenode的RPC端口号为: 8021 ,其作用是: 接收Client连接的RPC端口,用于获取文献系统metadata信息 。 27. (每空2

8、分)Mapper类中有 4 个函数。 28. (每空1分)默认NameNode周期性从DataNode接收心跳信号的时间间隔为: 3s 。 29. (每空1分)hadoop集群默认机架感知是启用的。是否正确: 错误 。 30. (每空2分)Hadoop Map/Reduce Shuffle过程: inputsplit-->map函数—>内存缓冲区à Partitionàsortàcombineàspill--> map端merge -->reduce端copy—>mergeàredu

9、ce函数。 31. (每空2分)一个NodeManager能够同时运行最大reduce任务数(默认): 2 。 32. (每空2分)默认情况下,一个同时运行了namenode,secondarynamenode和ResourceManager的主节点,所使用的内存容量为 3000 M。 33. (每空2分)Hadoop集群中有三种作业调度算法,分别为 FIFO调度 , 计算能力调度 和 公平调度 。 34. (每空1分)HA产生的背景是: 为了处理单NN也许出现宕机导致集群不可用或数据丢失的问题 。 35. (每空1分)通过 Zookeeper 管理两个

10、或者多个NameNode,使一个NameNode为 active 状态,并且同时每个NN的元数据,假如 active 状态的NN宕机后立即启用状态为 standby 状态的备用节点。 36. (每空1分) job 是客户端需要执行的一个工作单元。 37. (每空1分)Hadoop将作业提成若干个 task 来执行,其中包括: maptask 和 reducetask 。 38. (每空2分)combiner是通过 Reducer 类来定义的。 39. (每空2分)map任务将其输出写入到 本地磁盘 。 40. (每空2分)reduce的输出一般存储在 HDFS

11、 中以实现可靠存储。 41. (每空2分)HDFS会对写入的所有数据计算 校验和 ,并在读取数据时验证 校验和 。 42. (每空2分)序列化用于分布式数据处理的两大领域为: 进程间通信 和 永久存储 。 43. (每空2分)hadoop使用自己的序列化格式为: Writable 。 二.简答题,3分(17题),5分(5题)共75分 1. (3分)简明描述怎样安装配备apache的一个开源hadoop,只描述即可,无需列出详细步骤,列出详细步骤愈加好。 答: 1使用root账户登录 2 修改IP 3 修改host主机名 4 配备SSH免密码登录 5 关

12、闭防火墙 6 安装JDK 7 解压hadoop安装包 8 配备hadoop的核心文献 hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml 9 配备hadoop环境变量 10 格式化 hadoop namenode -format 11 开启节点 start-all.sh 2. (3分)请列出正常的hadoop集群中hadoop都分别需要开启哪些进程,他们的作用分别都是什么,请尽也许列的详细某些。 答: namenode:管理集群,存储数据的原信息,并管理统计datanode中的文献信息。 sec

13、ondarynamenode:它是namenode的一个快照,会依照configuration中设置的值来     决定多少时间周期性的去cp一下namenode,统计namenode中的metadata及其他数据。 Datanode:存储数据 ResourceManager:ResourceManager负责集群中所有资源的统一管理和分派,它接收来自各个节点(NodeManager)的资源报告信息,并把这些信息按照一定的方略分派给各个应用程序(实际上是ApplicationManager) NodeManager:是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点

14、 (3分)请写出如下的shell命令 (1)杀死一个job (2)删除hdfs上的 /tmp/aaa目录 (3)加入一个新的存储节点和删除一个节点需要执行的命令 答: (1)mapred job -list得到job的id,然后执行mapred job –kill jobId就能够杀死一个指定jobId的job工作了。 (2)hadoop fs -rmr /tmp/aaa或者hdfs dfs –rmr /tmp/aaa (3)增加一个新的节点在新的节点上执行 hadoop-daemon.sh start datanode 然后在主节点中执行 hdfs

15、 dfsadmin -refreshNodes 删除一个节点的时候,只需要在主节点执行 hdfs dfsadmin –refreshnodes 3. (3分)请简述mapreduce中的combine和partition的作用 答: combiner是发生在map的最后一个阶段,其原理也是一个小型的reducer,重要作用是减少输出到reduce的个数,减少reducer的输入,提升reducer的执行效率。 Partition的重要作用就是指定输出到reduce的个数的。 4. (3分)hdfs的体系结构 答: HDFS采取了主从(Master/Slave)结构模

16、型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文献系统的命名空间和客户端对文献的访问操作;集群中的DataNode管理存储的数据 5. (3分)三个datanode中当有一个datanode出现错误时会怎样? 答: 当有一个datanode出现错误的时候,namenode会将那个datanode上的数据拷贝到其他的节点去进行存储。 6. (3分)文献大小默以为 64M,改为 128M 有什么影响? 答: 更改文献的block块大小,需要依照我们的实际生产中来更改block的大小,假如block定义的太小

17、大的文献都会被切提成太多的小文献,减慢用户上传效率,假如block定义的太大,那么太多的小文献也许都会存到一个block块中,虽然不浪费硬盘资源,可是还是会增加namenode的管理内存压力。 7. (3分)NameNode与SecondaryNameNode的区分与联系? 答: secondaryNameNode更像是Namenode的一个冷备份,当namenode宕机之后,能够从SecondaryNamenode上面恢复部分数据。 8. (5分)在一个运行的hadoop任务中,什么是InputSplit? 答: InputSplit是MapReduce对文献进行处理

18、和运算的输入单位,只是一个逻辑概念,每个InputSplit并没有对文献实际的切割,只是统计了要处理的数据的位置(包括文献的path和hosts)和长度(由start和length决定),默认情况下与block同样大。 9. (3分)参考下列M/R系统的场景:hdfs块大小为64MB,输入类为FileInputFormat,有3个文献的大小分别为64KB, 65MB, 127MB,Hadoop框架会把这些文献拆分为多少块? 答: 64k------->一个block 65MB---->两个文献:64MB是一个block,1MB是一个block 127MB--->两个文献:64MB

19、是一个block,63MB是一个block 10. (5分)hadoop中RecordReader的作用是什么? 答: RecorderReader是一个接口,重要是用来读取文献的输入键值正确,我们也能够自定义输入的key,value正确读取规则。属于split和mapper之间的一个过程,将inputsplit输出的行为一个转换统计,成为key-value的统计形式提供应mapper 11. (3分)Map阶段结束后,Hadoop框架会处理:Partitioning, Shuffle和Sort,在这几个阶段都发生了什么? 答: Partition是对输出的key,val

20、ue进行分区,能够自定义分区,按照业务需求,将map的输出归分到多个不一样的文献中 将map的输出作为输入传给reducer 称为shuffle sort是排序的过程,将map的输出,作为reduce的输入之前,我们能够自定义排序,按照key来对map的输出进行排序 12. (5分)假如没有定义partitioner,那数据在被送达reducer前是怎样被分区的? 答: Partitioner是在map函数执行context.write()时被调用。用户能够通过实现自定义的Partitioner来控制哪个key被分派给哪个Reducer。 hadoop有一个默认的分区类,

21、HashPartioer类,通过对输入的k2去hash值来确认map输出的k2,v2送到哪一个reduce中去执行。 13. (3分)什么是combiner? 答: combiner就是规约操作,通过对map输出的数量进行规约,能够减少reduce的数量,提升执行效率。combiner的输入输出类型必须和mapper的输出以及reducer的输入类型一致 14. (3分)分别举例什么情况要使用 combiner,什么情况不使用? 答: 求平均数的时候就不需要用combiner,因为不会减少reduce执行数量。在其他的时候,能够依据情况,使用combiner,来减少map的

22、输出数量,减少拷贝到reduce的文献,从而减轻reduce的压力,节约网络开销,提升执行效率 15. (5分)简述Hadoop中replication(复本)放置方略? 答: Hadoop的默认布局方略是在运行客户端的节点上放第一个复本;第二个复本放在与第一个不一样且随机另外选择的机架中的节点上(离架);第三个复本与第二个复本放在同一个机架上,且随机选择另一个节点。 16. (5分)怎样为一个hadoop任务设置mappers的数量? 答: map的数量一般是由hadoop集群的DFS块大小确定的,也就是输入文献的总块数,正常的map数量的并行规模大体是每一个Node是1

23、0~100个,对于CPU消耗较小的作业能够设置Map数量为300个左右,不过因为hadoop的没一个任务在初始化时需要一定的时间,因此比较合理的情况是每个map执行的时间最少超出1分钟。详细的数据分片是这么的,InputFormat在默认情况下会依照hadoop集群的DFS块大小进行分片,每一个分片会由一个map任务来进行处理,当然用户还是能够通过参数mapred.min.split.size参数在作业提交客户端进行自定义设置。尚有一个重要参数就是mapred.map.tasks,这个参数设置的map数量仅仅是一个提示,只有当InputFormat 决定了map任务的个数比mapred.map

24、tasks值小时才起作用。同样,Map任务的个数也能通过使用JobConf 的conf.setNumMapTasks(int num)措施来手动地设置。这个措施能够用来增加map任务的个数,不过不能设定任务的个数小于Hadoop系统通过度割输入数据得到的值。当然为了提升集群的并发效率,能够设置一个默认的map数量,当用户的map数量较小或者比自身自动分割的值还小时能够使用一个相对交大的默认值,从而提升整体hadoop集群的效率。 17. (3分)hdfs文献写入的流程?  答: 1) Client向NameNode发起文献写入的祈求。 2) NameNode依照文献大小和文

25、献块配备情况,返回给Client它所管理部分DataNode的信息。 3) Client将文献划分为多个Block,依照DataNode的地址信息,按次序写入到每一个DataNode块中。 18. (3分)hdfs文献读取的流程?  答: 1) Client向NameNode发起文献读取的祈求。 2) NameNode返回文献存储的DataNode的信息。 3) Client读取文献信息。  HDFS经典的布署是在一个专门的机器上运行NameNode,集群中的其他机器各运行一个DataNode;也能够在运行NameNode的机器上同时运行DataNode,或者一台机器上

26、运行多个DataNode。一个集群只有一个NameNode的设计大大简化了系统架构。 19. (3分)Hadoop单机(本地)模式中的注意点? 答: 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文献系统。单机模式适合用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。 20. (3分)伪分布模式中的注意点? 答: 伪分布式(Pseudo)适合用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。 21. (3分)完全分布模式又有什么注意点? 答: 完全分布模式一般被用于生产环境,这里我们使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode运行的主机,以及task tracker运行的主机。在分布式环境下,主节点和从节点会分开。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服