南开大学复习资料-大数据开发技术(二).docx

资源描述

1、大数据开发技术（上）课程期末复习资料一、客观部分：（单项选择、多项选择、不定项选择、判断）（一）、判断部分1 Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗答案：错2、Spark是Apache基金会的顶级项目答案：对3、Spark在同一个应用中不能同时使用Spark SQL和Ml 1 ib答案：错4、用户可以在Hadoop YARN 运行Spark答案：对5、用户可以在Apache Mesos _t运行Spark答案：对6、Spark SQL仅仅包括基本的SQL语法答案：错7、Spark SQL包括基本的SQL语法和HiveQL语法答案：对8、

2、Scala是一种纯面向对象的语言，每个值都是对象。答案：对9、Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。答案：对10、Scala Scalable Language的简写,是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。答案：错11、Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括函数式编程的特性。答案：错12、Scala其函数不能当成值来使用答案：错13、Scala配备了一种表现型的系统，它以静态的方式进行抽象，以安全和连贯的方式进行使用。答

3、案：对14、Scala配备了-种表现型的系统，它以动态的方式进行抽象，以安全和连贯的方式进行使用。答案：错15、Scala是不可扩展的答案：错16、Scala中创建一个方法时经常用void表示该方法无返回值答案：错17、Scala中用Unit表示无值，等同于Java中的void答案：对18、Scala可以通过“var”来定义变量，通过“val”关键字来定义常量答案：对19、Scala可以通过“val”来定义变量，通过“var”关键字来定义常量答案：错A. 10 B. 11 C. 20 D. 1937、var a=10;for（a-l until 20）（printin（a）;）共循环

4、了（D）次A. 10 B. 11 C. 20 D. 1938、下列Scala代码应输出（D）：var a=0;var b=0var sum=0;for（al until 3; b Scala函数组合器可以把一个二维的列表展开成-个一维的列表的方法是(B)A. filter B. flatten C. grouby D. flatmap6kScala函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map 的方法是(C)A. filter B. flatten C. grouby D. fl at map62、Scala使用(A)关键字来继承一个类A. extends B.overrid

5、e C.extend D. overrides63、Scala中重写一个非抽象方法必须使用(B)修饰符。A. extends B.override C.extend D. overrides64、Scala可以使用(A)关键字实现单例模式A. object B. static C. private D. public65、RDD是一个(BCD)的数据结构可读写B.只读的C.容错的D.可进行并行操作的66、以下哪个方法可以从集合中创建RDD (AB)A. parallelize B. makeRDD C. textFile D. loadFile67、以下哪个方法可以从外部存储中创建RDD (C

6、)A.parallelize B. makeRDD C.textFile D. loadFile68、以下哪个方法可以创建RDD (ABC)A. parallelize B. makeRDD C. textFile D. loadFile69、Spark可以通过哪些外部存储创建RDD ( ABCD )文本文件B.目录C.压缩文件D.通配符匹配的文件70、RDD的(C)操作通常用来划分单词A. filter B. union C. flatmap D. mapPartitions71、以下哪个函数可以对RDD进行排序(A)A. sortBy B. filter C.distinct D. int

7、ersection72、以下哪个函数可以对RDD进行过滤（B）A. sortBy B. filter C. distinct D. intersection73、以下哪个函数可以对RDD进行去重（C）A.sortBy B. filter C. distinct D. intersection74、以下哪个函数可以对两个RDD进行合并（A）A. union B. substract C. intersection D. cartesian75、以下哪个函数可以求两个RDD差集（B）A. union B. substract C. intersection D. cartesian76、以下哪个函

8、数可以求两个RDD交集（C）A. union B. substract C. intersection D. cartesian77、以下哪个函数可以求两个RDD的笛卡尔积（D）A. union B. substract C. intersection D. cartesian78、PairRDD的（A）方法,可以把两个RDD中键相同的元素组合在一起,合并为一个 RDDoA. join B. union C. substract D. intersection79、当需要将一个普通的RDD转化为一个PairRDD时可以使用（C）函数来进行操作A. transfer B. change C.

9、map D. build80、PairRDD可以通过（B）获得仅包含键的RDDA. key B. keys C. value D. values81、PairRDD可以通过（D）获得仅包含值的RDDA. key B. keys C. val ue D. val ues82、PairRDD中（A）函数可以合并具有相同键的值A. mapValucs B. groupBy C. groupByKcy D. rcduceByKey83、PairRDD中（C）函数可以对具有相同键的值进行分组A. mapValues B. groupBy C. groupByKey D. reduceByKey84、Pa

10、irRDD中（BC）函数可以进行分组A. mapValues B. groupBy C. groupByKey D. reduceByKey 85、请问RDD的(A)操作是根据键对两个RDD进行内连接A. join B. zip83、PairRDD中（C）函数可以对具有相同键的值进行分组A. mapValues B. groupBy C. groupByKey D. reduceByKey84、PairRDD中（BC）函数可以进行分组A. mapValues B. groupBy C. groupByKey D. reduceByKey 85、请问RDD的(A)操作是根据键对两个RDD进行内连

11、接A. join B. zip83、PairRDD中（C）函数可以对具有相同键的值进行分组A. mapValues B. groupBy C. groupByKey D. reduceByKey84、PairRDD中（BC）函数可以进行分组A. mapValues B. groupBy C. groupByKey D. reduceByKey 85、请问RDD的(A)操作是根据键对两个RDD进行内连接A. join B. zipA. join B. zipA. join B. zipA. join B. zip86、请问RDD的A. join B. zipC.combineByKey D.co

12、llect87、请问RDD的(C)操作用于将相同键的数据聚合C. combineByKey D. collect (B)操作是将两个RDD组合成Key/Value形式的RDDA. join B. zip88、请问RDD的A. join B. zip89、请问RDD的C. combineByKey D.collect (D)操作把RDD所有元素转换成数组并返回到Driver端C.combineByKey D. collect (D)操作作用于K-V类型的RDD上，返回指定K的所有V值A. search B. find C. findByKey D. lookup90、请问RDD的(A)操作用来计

13、算RDD中所有元素个数A. count B. num C. length D. number91、Spark支持的文件格式包括(ABCD)A.文本文件 B. JSON C. CSV D. SequenceFile92、spark-submit配置项中(A)表示Driver程序使用的内存大小A.一driver-memory MEMB.executor-memory MEMC. 一total-executor-cores NUM D. 一一executor-coures NUM93 spark-submit配置项中(B)表示executor内存大小A. num-executors NUMB. ex

14、ecutor-memory MEMC. total-executor-cores NUM D. executor-coures NUM94、spark-submit配置项中(C)表示executor使用的总核数A. -num-executors NUMB. executor-memory MEMC. total-executor-cores NUM D, 一一executor-coures NUM95 spark-submit配置项中(A)表示启动的executor数量A. num-executors NUMB. executor-memory MEMC, total-executor-cor

15、es NUM D. executor-coures NUM96、spark-submit配置项中(D)表示每个executor使用的内核数A, num-executors NUM B. -executor-memory MEMC. total-executor-cores NUM D. 一一executor-coures NUM97、Spark中的每个RDD 般情况下是由(C)个分区组成的A.O B. 1 C.多 D.无数98、Spark的RDD持久化操作有(AB)方式A. cache B. presist C. storage D. long99、如果numPartitions是分区个数，那

16、么Spark每个RDD的分区ID范围是(B)A. 0, numPartitions B. 0, numPartitions-1C. 1, numPartitions-1 D. 1,numPartitions100、以下哪种方法可以让Spark不自定义分区也能对任何类型RDD简单重分区(BD)A. resetpartition B. reparti ton C. Partition D. coalesce101、Spark SQL 可以处理(ABCD)A. RDD B. Parquet 文件 C. JSON 文件 D. Hive 表102、以下哪个方法可以实现Spark SQL对数据的查询(AC

17、)A. SqlContext B. MySQLContext C. HiveContext D. context103、Spark 创建 DataFrame 对象方式有(ABCD)A.结构化数据文件B.外部数据库C. RDD D.Hive中的表104 Spark SQL可以通过(AB)方法加载json文件为DataFrameA. format B. json C. get D. read105、Spark DataFrame中(ABCD)方法可以获取若干行数据A. first B. head C. take D. collect 106 Spark DataFrame中(AD)方法可以获取所有

18、数据A. collect B. take C. takeAsList D. collectAsList 107、Spark DataFrame中(AB)方法可以返回一个Array对象A.collect B. take C. takeAsList 0.collectAsList 108 Spark DataFrame 中(CD )方法可以返回一个 ListA. collect B. take C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的104 Spark SQL可以通过(AB)方法加载json文件为DataFrameA. forma

19、t B. json C. get D. read105、Spark DataFrame中(ABCD)方法可以获取若干行数据A. first B. head C. take D. collect 106 Spark DataFrame中(AD)方法可以获取所有数据A. collect B. take C. takeAsList D. collectAsList 107、Spark DataFrame中(AB)方法可以返回一个Array对象A.collect B. take C. takeAsList 0.collectAsList 108 Spark DataFrame 中(CD )方法可以返回

20、一个 ListA. collect B. take C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的104 Spark SQL可以通过(AB)方法加载json文件为DataFrameA. format B. json C. get D. read105、Spark DataFrame中(ABCD)方法可以获取若干行数据A. first B. head C. take D. collect 106 Spark DataFrame中(AD)方法可以获取所有数据A. collect B. take C. takeAsList D. coll

21、ectAsList 107、Spark DataFrame中(AB)方法可以返回一个Array对象A.collect B. take C. takeAsList 0.collectAsList 108 Spark DataFrame 中(CD )方法可以返回一个 ListA. collect B. take C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的A. collect B. take C. takeAsList D. collectAsList 107、Spark DataFrame中(AB)方法可以返回一个Array对象A.

22、collect B. take C. takeAsList 0.collectAsList 108 Spark DataFrame 中(CD )方法可以返回一个 ListA. collect B. take C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的A. collect B. take C. takeAsList D. collectAsList 107、Spark DataFrame中(AB)方法可以返回一个Array对象A.collect B. take C. takeAsList 0.collectAsList 108 S

23、park DataFrame 中(CD )方法可以返回一个 ListA. collect B. take C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的A. collect B. take C. takeAsList D. collectAsList 107、Spark DataFrame中(AB)方法可以返回一个Array对象A.collect B. take C. takeAsList 0.collectAsList 108 Spark DataFrame 中(CD )方法可以返回一个 ListA. collect B. tak

24、e C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的A. collect B. take C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的A. collect B. take C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的A. collect B. take C. takeAsList D. collectAsList109、 Spark 中 DataFrame 的A. collect B. take C. tak

25、eAsList D. collectAsList109、 Spark 中 DataFrame 的109、 Spark 中 DataFrame 的109、 Spark 中 DataFrame 的109、 Spark 中 DataFrame 的109、 Spark 中 DataFrame 的109、 Spark 中 DataFrame 的(A)方法是进行条件杳询A. where B. join C. limit D. apply110、Spark 中 DataFrame 的(C110、Spark 中 DataFrame 的(C110、Spark 中 DataFrame 的(C110、Spark 中

26、 DataFrame 的(C110、Spark 中 DataFrame 的(C110、Spark 中 DataFrame 的(C)方法是进行查询前n行记录A. where B. join C. limit D. apply111 Spark中DataFrame的(B)方法是进行连接查询A. where B. join C. limit D. apply112、Spark中DataFrame的(A)方法是进行排序查询A. order by B. group by C. select by D. sort by113 Spark中DataFrame的(B)方法是进行分组查询A. order by

27、B. group by C. select by D. sort by114、Spark中DataFrame的(ABCD)方法是查询指定字段的数据信息A. select B. selectExpr C. col D. apply115 Spark Streaming 的特点有(BCD)单极性B.可伸缩C.高吞吐量D.容错能力强116 Spark Streaming 能够和(BCD)无缝集成A. Hadoop B. Spark SQL C. Ml lib D. GraphX117、Spark Streaming能够处理来自(ABCD)的数据A. Kafka B. Flume C. Twitter

28、 D. ZeroMQ118、Spark Streming中DStream的每个RDD都是由(B)分割开来的数据集分区B.小段时间C.数据量D.随机119 Spark Streming中(C)函数可以对源DStream中的每一个元素应用func 方法进行计算，如果func函数返回结果为true,则保留该元素，否则丢弃该元素，返回一个新的DstreamA. map B. flatMap C. filter D. union120、Spark Streming中(A)函数可以对源DStream的每个元素通过函数func 返一个新的DStreamA. map B. flatMap C. filter

29、 D. union121、Spark Streming d1 (B)函数可以对源DStrcam的每个元素通过函数func 被映射出0或者更多的输出元素A. map B. flatMap C. filter D. union122 Spark Streming中(D)函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象A. map B. flatMap C. filter D. union123、Spark St remi ng中(A)函数可以对统计DS t ream中每个RDD包含的元素的个数，得到一个新的DStreamA. count B. uni

30、on C. length D. reduce124 Spark Strcming中(B)函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamD. cogroup119 Spark Streming中(C)函数可以对源DStream中的每一个元素应用func 方法进行计算，如果func函数返回结果为true,则保留该元素，否则丢弃该元素，返回一个新的DstreamA. map B. flatMap C. filter D. union120、Spark Streming中(A)函数可以对源DStream的每个元素通过函数fun

31、c 返一个新的DStreamA. map B. flatMap C. filter D. union121、Spark Streming d1 (B)函数可以对源DStrcam的每个元素通过函数func 被映射出0或者更多的输出元素A. map B. flatMap C. filter D. union122 Spark Streming中(D)函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象A. map B. flatMap C. filter D. union123、Spark St remi ng中(A)函数可以对统计DS t ream中每个

32、RDD包含的元素的个数，得到一个新的DStreamA. count B. union C. length D. reduce124 Spark Strcming中(B)函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamD. cogroupA. map B. flatMap C. filter D. union123、Spark St remi ng中(A)函数可以对统计DS t ream中每个RDD包含的元素的个数，得到一个新的DStreamA. count B. union C. length D. reduce124

33、 Spark Strcming中(B)函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamD. cogroupA. map B. flatMap C. filter D. union123、Spark St remi ng中(A)函数可以对统计DS t ream中每个RDD包含的元素的个数，得到一个新的DStreamA. count B. union C. length D. reduce124 Spark Strcming中(B)函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有

34、一个元素的新DStreamD. cogroup行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamD. cogroup行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamD. cogroup行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamD. cogroupD. cogroupD. cogroupD. cogroupD. cogroupD. cogroupA. union B. reduce C. join125、Spark Streming 中（C）125、Spark Streming 中（C）125、Spark Streming 中（C）

35、125、Spark Streming 中（C）125、Spark Streming 中（C）125、Spark Streming 中（C）(K, W)键值对时，返回一个(K,函数当被调用的两个DStream分别含有(K, V)和SeqV, SeqW）类型的新的 DStream。D. cogroupA. union B. reduce C. join 126、Spark Strcming (D)函数当被调用类型分别为(K, V)和(K, W)键值对的2个DStream时，返回类型为(K, (V, W)键值对的一个新DStream。A. union B. reduce C. join D. co

36、group127、Spark Streming中(A)函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。A. transform B. reduce C. join D. cogroup128、Dstream窗口操作中（A）方法返回一个基于源DStream的窗口批次计算后得到新的DStreamoA. window B. countByWindow C. reduceByWindow D. reduceByKeyAndWindow129、Dstream窗口操作中（B）方法返回基于滑动窗口的DStream中

37、的元素的数日.里A. window B. countByWindow C. reduceByWindow D. reduceByKeyAndWindow130、Dstream窗口操作中（C）方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的DstreamA. window B. countByWindow C. reduceByWindow D. reduceByKeyAndWindow131、Dstream窗口操作中（D）方法基于滑动窗口对（K, V）键值对类型的DStream 中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA. window B

38、. countByWindow C. reduceByWindow D. reduceByKeyAndWindow132、Dstream输出操作中（A）方法在Driver中打印出DStream中数据的前10 个元素。A. print B. saveAsTextFiles C. saveAsObjectFiles D. saveAsHadoopFi1es133、Dstream输出操作中（B）方法将DStream中的内容以文本的形式保存为文本文件A. print B. savcAsTextFiles C. saveAsObjectFiles D. saveAsHadoopFiles 134 Ds

39、tream输出操作中（C）方法在Driver中打印出DStream中数据的前12 个元素。A. print B. saveAsTextFiles C. saveAsObjectFiles D. saveAsHadoopFiles 135、Dstream输出操作中（D）方法将DStream中的内容按对象序列化并且以 SequenceFi le的格式保存A. print B. saveAsTextFiles C. saveAsObjectFiles D. saveAsHadoopFiles 136 Dstream输出操作中print方法在Driver中打印出DStream中数据的（C）元素。A,

40、第一个B.所有C.前10个D,前100个137、图的结构通常表示为：G（V, E）,其中，G表示（A）A.图B.子图C.顶点D.边138、图的结构通常表示为：G（V, E）,其中，V是图G中（B）A.顶点B.顶点的集合C.边D.边的集合139、图的结构通常表示为：G（V, E）,其中，E是图G中D（D）A.顶点B.顶点的集合C.边D.边的集合140、图是一种数据元素间为（A）关系的数据结构A.多对多 B.一对一 C. 一对多 D.多对一141、在图结构中，每个元素都可以有（B）前驱A.至少一个B.零个或多个C. 一个D.零个142、在图结构中，每个元素都可以有（B）后继A.至少一个 B.零个或

41、多个C. 一个 D.零个143、图结构中如果任意两个顶点之间都存在边，那么称之为（A）A.完全图B.有向完全图C.无向图D.简单图144、图结构中如果任意两个顶点之间都存在有向边，那么称之为（B）A.完全图B.有向完全图C.无向图D.简单图145、图结构中如果无重复的边或者顶点到自身的边，那么称之为(D)A.完全图 B.有向完全图C.无向图D.简单图146、GraphX中Edge边对象存有(ABC)字段A. srcld B. dstld C. attr D. val147、GraphX中(A)是存放着Edg对象的RDDA. RDDEdge B. EdgeRDD C. RDD (VertexId

42、, VD) D. VertexRDD148、GraphX中(B)是完整提供边的各种操作类A. RDDEdge B. EdgeRDD C. RDD (Vertexld, VD) D. VertexRDD149、GraphX中(C)是存放着存放顶点的RDDA. RDDEdgeB. EdgeRDDC. RDD(Vertcxld, VD) D. VertexRDD150、GraphX中(D)是提供顶点的各种操作方法的对象A. RDDEdgeB. EdgeRDDC. RDD (Vertexld, VD) D. VertexRDD151、GraphX 中 EdgeRDD 继承自(B)A. EdgeRDD

43、B. RDDEdge C. VertexRDDVD D. RDD(Vertexld, VD)152、GraphX 中 VertexRDDVD继承自(D)A. EdgeRDD B. RDDEdge C. VertexRDDVD D. RDD(Vertexld, VD)153、Graph类中如果要根据分开存放的顶点数据和边数据创建图，应该用(A) 方法Graph(vertices, edges, defaultVertexAttr)Graph, fromEdges(RDDEdgeED, defaultValue)Graph. fromEdgeTuples(rawEdges:RDD(Vertexld, Vertexld),defaultValue,)GraphLoader. edgeListFile(sc, filename)154、Graph类中如果根据边数据创建图，数据需要转换成RDDEdgcED类型，应该用(B)方法Graph(vertices, edges, defaultVertexAttr)Graph, fromEdges(RDDEdge压D, defaultValue)Graph. fromEdgeTuples(rawEdges:RDD(Vertexld, V

展开阅读全文