RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合
RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合
相关考题:
下面描述不正确的是A.数据元素是数据的基本单位B.数据元素可由一个或多个数据项组成,数据项是有独立含义的数据最小单位C.数据的逻辑结构是数据间关系的描述,它抽象地反映数据元素间的存储关系D.数据的存储结构是逻辑结构在计算机存储器中的实现
创建rdd可以有如下几种?()A、由外部存储系统的数据集创建,包括本地的文件系统B、由一个已经存在的Scala集合创建C、比如所有Hadoop支持的数据集,比如HDFS、Cassandra、HbaseD、以上说法都不对
spark的源码是由哪几种语言编写完成的()A、acheSpark是一种快速、通用、可扩展的大数据分析引擎B、spark为分布式数据集的处理提供了一个有效框架,并以高效的方式处理分布式数据集C、spark强调一站式解决方案,集批处理、实时流处理、交互式查询与图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费D、spark可以将数据分析过程的中间输出保存在内存中,从而不需要从外部持久化存储中反复读写数据,相较mapreduce能更好地适用于数据挖掘和机器学习等需要迭代运算的场景
RDD特性包含如下哪些?()A、一组分片(Partition),即数据集的基本组成单位B、一个计算每个分区的函数C、RDD之间的依赖关系D、一个列表,存储存取每个Partition的优先位置(preferredlocation)
下列组成软件的说法正确的是:()。A、类是组成软件结构的基本元素,它是数据说明和算法的集合B、函数是组成软件结构的基本元素,它是数据说明和算法的集合C、对象是组成软件结构的基本元素,它是数据说明和算法的集合D、模块是组成软件结构的基本元素,它是数据说明和算法的集合
单选题下列有关RDD的说法中错误的是()。ARDD是一个只读的,可分区的分布式数据集。BRDD默认存储在磁盘,当磁盘不足时,溢写到内存。CRDD数据以分区的形式在集群中存储。DRDD具有血统机制,发生数据丢失时,可快速进行数据恢复。
( 难度:中等)关于spark中RDD说法错误的是:A.宽依赖指的是多个子RDD的分区会依赖同一个父RDD的分区,关系是一对多B.窄依赖指的是每一个父RDD的分区最多被子RDD的一个分区使用,是一对一的C.宽依赖中会有shuffle的产生D.窄依赖中会有shuffle的产生