有一个键值对RDD,名称为pairRDD,包含4个元素,分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1),则pairRDD.mapValues(x => x+1)操作得到的RDD中所包含的元素是A.("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)B.1,1,1,1C.2,2,2,2D.("Spark",2)、("Hive",2)和("Spark",2)

有一个键值对RDD,名称为pairRDD,包含4个元素,分别是("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1),则pairRDD.mapValues(x => x+1)操作得到的RDD中所包含的元素是

A.("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)

B.1,1,1,1

C.2,2,2,2

D.("Spark",2)、("Hive",2)和("Spark",2)


参考答案和解析
”Hadoop”,”Spark”,”Hive”,”Spark”

相关考题:

RDD的intersection方法用于求出两个RDD的共同元素。() 此题为判断题(对,错)。

RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。() 此题为判断题(对,错)。

Spark只有键值对类型的RDD才能设置分区方式。() 此题为判断题(对,错)。

RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器数组、列表等中的所有元素构成新的RDD。() 此题为判断题(对,错)。

请问RDD的()操作把RDD所有元素转换成数组并返回到Driver端。 A.zipB.joinC.combineByKeyD.collect

Spark中的每个RDD一般情况下是由()个分区组成的。 A.无数B.多C.1D.0

PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。() 此题为判断题(对,错)。

键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。() 此题为判断题(对,错)。

数组Dim x(3,-1 to 1,6)包含元素的个数有【 】。

以下属于spark启动后进程的是()A、rdd是由一系列的partition组成的B、原子性C、算子作用在partition上D、每个rdd都会提供一批最优的计算位置

spark中的rdd是一个()数据集A、弹性分布式B、弹性计算C、运送数据D、心跳

spark中以下哪些特性是rdd的特性()A、计算移动B、数据不移动C、数据移动D、计算不移动

map算子返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成

spark架构中的rdd相当于java中的()概念A、类B、接口C、方法D、内部类

Spark中,以下哪些是rdd的特性()A、partition大小B、partition个数C、partiton的所有者D、parrtition的一切

rdd是spark中个哪个架构提出的概念()A、spark coreB、spark streamingC、mlbaseD、Grophx

描述Spark集群计算中RDD的含义和作用。

spark中的rdd相当于java中的()概念A、类B、接口C、方法D、内部类

spark框架中,机器学习库的框架是哪个()A、hadoopB、spark?streamingC、mlbaseD、RDD

RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合

以下哪个选项是spark的核心框架?()A、spark?coreB、spark?streamingC、hdfsD、hadoop

spark的组件不包含哪个()A、spark coreB、hdfsC、GraphxD、spark streaming

spark中的rdd不存储数据,存储的是()A、业务逻辑B、物理数据C、数据库数据D、物理逻辑

SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做()的可编程抽象数据模型A、DataFramesB、TableC、DataSetD、RDD

设一个集合A={3,4,5,6,7},集合B={1,3,5,7,9},则A和B的并集中包括有()个元素,A和B的交集中包含有()个元素,A和B的差集中包含有()个元素。

问答题Spark对RDD的操作主要分为行动(Action)和转换(Transformation)两种类型,两种类型操作的区别是什么?

问答题试述如下Spark的几个主要概念:RDD、DAG、阶段、分区、窄依赖、宽依赖。

问答题描述Spark集群计算中RDD的含义和作用。