1、姓名:_年级专业:_ 学号:_凡年级专业、姓名、学号错写、漏写或字迹不清者,成绩按零分记。密封线大数据技术原理和应用操作A卷试卷总分题型单选题多选题判断题填空题简答题题分得分得分单选题(每题2分,共计20分)1 下列选项中,用于获取Zookeeper所包含的信息的Shell命令是()。A、lsB、ls2C、rD、get2 MapReduce处理数据的工作流程大致分为()步。A、两B、三C、四D、五3 下列选项中,关于HDFS的架构说法正确的是()。A、HDFS采用的是主备架构B、HDFS采用的是主从架构C、HDFS采用的是从备架构D、以上说法均错误4 下列选项中,若是哪个节点关闭了,就无法访问
2、Hadoop集群()。A、namenodeB、datanodeC、secondary namenodeD、yarn5 下列选项中,Hadoop2.x版本独有的进程是()。A、JobTrackerB、TaskTrackerC、NodeManagerD、NameNode6 下列选项中,存放Hadoop配置文件的目录是()。A、includeB、binC、libexecD、etc7 下列选项中,最早提出“大数据”这一概念的是()。A、贝恩B、麦肯锡C、吉拉德D、杰弗逊8 HDFS中的Block默认保存()份。A、3份B、2份C、1份D、不确定9 下列选项中,主要用于决定整个MapReduce程序性能
3、高低的阶段是()。A、MapTaskB、ReduceTaskC、分片、格式化数据源D、Shuffle10 在配置Linux网络参数时,固定IP地址是将路由协议配置为()。A、staticB、dynamicC、immutableD、variable得分多选题(每题2分,共计20分)11 下列选项中,属于Hadoop优势的有()。A、扩容能力强B、可靠性C、低效率D、高容错性12 下列哪项可以作为集群的管理?A、PuppetB、PdshC、Cloudera ManagerD、Zookeeper13 下列选项中,属于Hadoop版本系列的有()。A、Hadoop4B、Hadoop2C、Hadoop1
4、D、Hadoop314 Hadoop提供的自定义配置时编辑的配置文件中,包含()。A、core-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、yarn-site.xml15 下列说法中,关于crontab表达式说法正确的是()。A、通过执行crontab表达式可以执行定时任务B、crontab表达式是由6个参数决定C、Crontab表达式是由5个参数决定D、以上说法均正确16 在Zookeeper选举过程中,一共有四种状态,分别是()。A、竞选状态B、随从状态C、观察状态D、领导者状态17 下列选项中,属于Sqoop指令的参数有()。A、importB、o
5、utputC、inputD、export18 下列选项中,关于Hadoop集群说法正确的是()。A、Hadoop集群包含Worker节点B、Hadoop集群包含Master节点C、Hadoop集群包含Slave节点D、Hadoop集群包含HMaster节点19 下列选项中,属于Google提出的处理大数据的技术手段有()。A、MapReduceB、MySQLC、BigTableD、GFS20 Hive数据表插入数据时,insert()table ,括号中可使哪些关键字?A、intoB、appendC、overwrite得分判断题(对的打“”,错的打“”;每题1分,共10分)21 由于Hadoo
6、p是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。( )22 大数据提供的是一些描述性的信息,而创新还是需要人类自己实现。( )23 带有倒排索引的文件我们称为倒排索引文件,简称倒排文件。( )24 Hadoop集群执行完MapReduce程序后,会输出_SUCCESS和part-r-00000结果文件。( )25 传统文件系统存储数据时,若文件太大,会导致上传和下载非常耗时。( )26 通过使用虚拟机软件(如VMware Workstation),可以在同一台电脑上构建多个Linux虚拟机环境。( )27 Zookeeper的选举机制,实际上是采用算法Fast
7、LeaderElection,投票数大于半数则胜出的机制。( )28 在Hadoop的解压目录下的bin目录,存放的是Hadoop的配置文件。( )29 Hadoop HA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。( )30 在安装配置windows平台hadoop,配置后直接运行是没有问题的。( )得分填空题(每题2分,共计20分)31 Flume的核心是把数据从数据源通过数据采集器(Source)收集过来,再将收集的数据通过【】汇集到指定的接收器(Sink)。32 Sqoop连接器,它用于实现与各种关系型数据库的连接,
8、从而实现数据的【】和导出操作。33 Hive的安装模式分为【】、本地模式、远程模式三种形式。34 VMware提供了两种类型的克隆,分别是完整克隆和【】。35 Hadoop支持在【】系统和Windows系统上进行安装使用。36 Hadoop的解压目录下【】目录存放的是Hadoop管理脚本,包含HDFS和YARN中各类服务的启动/关闭脚本。37 一般关于日志文件产生都是根据【】而决定。38 在部署Sqoop时,需要在sqoop-env.sh配置文件中添加【】环境。39 当出现【】时,说明Hadoop集群已经被格式化成功。40 Flume分为两个版本,分别是Flume-og、【】。得分简答题(每题
9、6分,共计30分)41 启动Hive方式有哪些?42 简述大数据在零售行业应用的具体表现。43 简述event。44 简述单点故障的产生。45 简述如何检查Namenode是否正常运行。答案单选题(每题2分,共计20分)1 D2 D3 B4 A5 C6 D7 B8 A9 D10 A多选题(每题2分,共计20分)11 A,B,D12 A,B,D13 B,C,D14 A,B,C,D15 A,B16 A,B,C,D17 A,D18 B,C19 A,C,D20 A,C判断题(每题1分,共计10分)21 对22 对23 对24 对25 对26 对27 对28 错29 对30 错填空题(每题2分,共计20
10、分)31 【缓冲通道(Channel)】32 【导入】33 【嵌入模式】34 【链接克隆】35 【Linux】36 【sbin】37 【业务】38 【Hadoop】39 【successfully formatted】40 【Flume-ng】简答题(每题6分,共计30分)41 正确答案:1.bin/hive、2.bin/hiveserver242 正确答案:大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。43 正确答案:它是Flume内部数据传输的基本单元。一个完整的event包含headers和body,其中headers包含了一些标识信
11、息,而body中就是Flume收集到的数据信息。44 正确答案:当存储数据块的服务器中突然有一台机器宕机,我们就无法正常的获取文件了,这个问题被称为单点故障45 正确答案:如果要检查Namenode是否正常工作,使用Jps命令即可。大数据技术原理和应用操作B卷试卷总分题型单选题多选题判断题填空题简答题题分得分得分单选题(每题2分,共计20分)46 在配置Linux网络参数时,固定IP地址是将路由协议配置为()。A、staticB、dynamicC、immutableD、variable47 在MapReduce程序中,map()函数接收的数据格式是()。A、字符串B、整型C、LongD、键值对
12、48 下列选项中,用于获取Zookeeper所包含的信息的Shell命令是()。A、lsB、ls2C、rD、get49 下列选项中,用于上传文件的Shell命令是()。A、-lsB、-mvC、-cpD、-put50 下列选项中,哪一项是可以进行重启引导系统()。A、OKB、CancelC、RebootD、Apply51 下列选项中,最早提出“大数据”这一概念的是()。A、贝恩B、麦肯锡C、吉拉德D、杰弗逊52 下列选项中,关于HDFS的架构说法正确的是()。A、HDFS采用的是主备架构B、HDFS采用的是主从架构C、HDFS采用的是从备架构D、以上说法均错误53 下列选项中,主要用于决定整个M
13、apReduce程序性能高低的阶段是()。A、MapTaskB、ReduceTaskC、分片、格式化数据源D、Shuffle54 下列选项中,Hadoop2.x版本独有的进程是()。A、JobTrackerB、TaskTrackerC、NodeManagerD、NameNode55 下列选项中,用于存放部署Hadoop集群服务器的是()。A、namenodeB、datanodeC、rackD、metadata得分多选题(每题2分,共计20分)56 下列选项中,属于Google提出的处理大数据的技术手段有()。A、MapReduceB、MySQLC、BigTableD、GFS57 下列选项中,属
14、于Hadoop版本系列的有()。A、Hadoop4B、Hadoop2C、Hadoop1D、Hadoop358 下列选项中,属于Hadoop优势的有()。A、扩容能力强B、可靠性C、低效率D、高容错性59 下列哪项可以作为集群的管理?A、PuppetB、PdshC、Cloudera ManagerD、Zookeeper60 下列选项中,关于Hadoop集群说法正确的是()。A、Hadoop集群包含Worker节点B、Hadoop集群包含Master节点C、Hadoop集群包含Slave节点D、Hadoop集群包含HMaster节点61 下列说法中,关于crontab表达式说法正确的是()。A、通
15、过执行crontab表达式可以执行定时任务B、crontab表达式是由6个参数决定C、Crontab表达式是由5个参数决定D、以上说法均正确62 在Zookeeper选举过程中,一共有四种状态,分别是()。A、竞选状态B、随从状态C、观察状态D、领导者状态63 下列说法中,关于使用Java API操作HDFS说法正确的是()。A、需要引入hadoop-common依赖B、需要引入hadoop-hdfs依赖C、需要引入hadoop-client依赖D、以上说法均错误64 下列选项中,属于Zookeeper集群的角色有()。A、FollowerB、WorkerC、ObserverD、Leader6
16、5 下列选项中,属于Sqoop指令的参数有()。A、importB、outputC、inputD、export得分判断题(对的打“”,错的打“”;每题1分,共10分)66 reduce()函数会将map()函数输出的键值对作为输入,把相同key值的value进行汇总,输出新的键值对( )67 Zookeeper的选举机制,实际上是采用算法FastLeaderElection,投票数大于半数则胜出的机制。( )68 Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec等。( )69 SecureCRT是一款支持SSH的终端仿真程序,它能
17、够在Windows操作系统上远程连接Linux服务器执行操作。( )70 大数据在医疗行业中可以有效控制疾病的发生。( )71 传统文件系统存储数据时,若文件太大,会导致上传和下载非常耗时。( )72 伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。( )73 由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。( )74 Hadoop HA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。( )75 HDFS目前不支持并发多用户的写操作,写操作只能在文件末尾追
18、加数据。( )得分填空题(每题2分,共计20分)76 Flume的核心是把数据从数据源通过数据采集器(Source)收集过来,再将收集的数据通过【】汇集到指定的接收器(Sink)。77 Hadoop发行版本分为开源社区版和【】。78 数据仓库是面向【】、集成、【】和时变的数据集合,用于支持管理决策。79 通过执行【】命令,查看该节点的Zookeeper角色。80 HDFS是可以由【】组成,每个服务器机器存储文件系统数据的一部分。81 如果使用Sqoop工具将MySQL表数据导入Hive数据仓库中,需要在sqoop-env.sh配置文件中配置【】。82 传统的文件系统对海量数据的处理方式是将数据
19、文件直接存储在【】台服务器上。83 【】是Zookeeper集群工作的核心,也是事务性请求(写操作)的唯一调度和处理者。84 马云曾经说过未来的时代将不是IT时代,而是【】时代。85 启动Hadoop集群,主要是启动其内部包含的【】和YARN集群。得分简答题(每题6分,共计30分)86 简述如何检查Namenode是否正常运行。87 简述event。88 启动Hive方式有哪些?89 简述大数据在零售行业应用的具体表现。90 简述Hive的排序种类及特点。答案单选题(每题2分,共计20分)46 A47 D48 D49 D50 C51 B52 B53 D54 C55 C多选题(每题2分,共计20
20、分)56 A,C,D57 B,C,D58 A,B,D59 A,B,D60 B,C61 A,B62 A,B,C,D63 A,B,C64 A,C,D65 A,D判断题(每题1分,共计10分)66 对67 对68 对69 对70 错71 对72 错73 对74 对75 对填空题(每题2分,共计20分)76 【缓冲通道(Channel)】77 【商业版】78 【主题】【非易实】79 【zkServer.sh status】80 【成百上千台服务器机器】81 【Hive的安装路径】82 【一】83 【Leader】84 【DT】85 【HDFS集群】简答题(每题6分,共计30分)86 正确答案:如果要检
21、查Namenode是否正常工作,使用Jps命令即可。87 正确答案:它是Flume内部数据传输的基本单元。一个完整的event包含headers和body,其中headers包含了一些标识信息,而body中就是Flume收集到的数据信息。88 正确答案:1.bin/hive、2.bin/hiveserver289 正确答案:大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。90 正确答案:1.order by 全局排序2.sort by 非全局排序3.distribute by hash散列分区,常和sort by同时使用。即分区又排序,需要设置mapreduce.job.reduces的个数4.cluster by 当distribute by 和sort by的字段相同时,等同于cluster by.可以看做特殊的distribute + sort大数据技术原理和应用操作A卷试卷第14页