RDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

下面描述不正确的是A．数据元素是数据的基本单位B．数据元素可由一个或多个数据项组成，数据项是有独立含义的数据最小单位C．数据的逻辑结构是数据间关系的描述，它抽象地反映数据元素间的存储关系D．数据的存储结构是逻辑结构在计算机存储器中的实现

查看答案

数据库是长期存储在计算机内、有组织的、可共享的( )。A．文件集B．数据集合C．命令集合D．程序集合

查看答案

可以用()、数据关系和基本操作集定义一个完整的抽象数据类型。A.数据元素B.数据对象C.原子类型D.存储结构

查看答案

下列与数据元素有关的叙述中，哪一个是不正确的？（）A.数据元素是数据的基本单位，即数据集合中的个体B.数据元素是由独立含义的数据最小单位C.数据元素又称为节点D.数据元素又称为记录

查看答案

Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性

查看答案

spark中弹性分布式数据集指的是哪个（）A、RDDB、DriverC、MasterD、Map

查看答案

spark中的rdd是一个（）数据集A、弹性分布式B、弹性计算C、运送数据D、心跳

查看答案

spark中以下哪些特性是rdd的特性（）A、计算移动B、数据不移动C、数据移动D、计算不移动

查看答案

spark中的弹性分布式数据集相当于java中的（）概念A、类B、接口C、方法D、内部类

查看答案

创建rdd可以有如下几种？（）A、由外部存储系统的数据集创建，包括本地的文件系统B、由一个已经存在的Scala集合创建C、比如所有Hadoop支持的数据集，比如HDFS、Cassandra、HbaseD、以上说法都不对

查看答案

spark的源码是由哪几种语言编写完成的（）A、acheSpark是一种快速、通用、可扩展的大数据分析引擎B、spark为分布式数据集的处理提供了一个有效框架，并以高效的方式处理分布式数据集C、spark强调一站式解决方案，集批处理、实时流处理、交互式查询与图计算于一体，避免了多种运算场景下需要部署不同集群带来的资源浪费D、spark可以将数据分析过程的中间输出保存在内存中，从而不需要从外部持久化存储中反复读写数据，相较mapreduce能更好地适用于数据挖掘和机器学习等需要迭代运算的场景

查看答案

与RDD类似，DataFrame也是一个分布式数据容器

查看答案

RDD特性包含如下哪些？（）A、一组分片（Partition），即数据集的基本组成单位B、一个计算每个分区的函数C、RDD之间的依赖关系D、一个列表，存储存取每个Partition的优先位置（preferredlocation）

查看答案

DiscretizedStream是SparkStreaming的基础抽象，代表持续性的数据流和经过各种Spark原语操作后的结果数据流

查看答案

SparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用

查看答案

spark为分布式数据集的处理提供了一个有效框架，并以高效的方式处理（）数据集A、单机B、集中式C、分布式D、NOSQL

查看答案

spark中的rdd不存储数据，存储的是（）A、业务逻辑B、物理数据C、数据库数据D、物理逻辑

查看答案

SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做（）的可编程抽象数据模型A、DataFramesB、TableC、DataSetD、RDD

查看答案

（）是性质相同的数据元素的集合。A、数据项B、数据对象C、数据元素D、数据类型E、操作F、抽象数据类型

查看答案

下列组成软件的说法正确的是：（）。A、类是组成软件结构的基本元素，它是数据说明和算法的集合B、函数是组成软件结构的基本元素，它是数据说明和算法的集合C、对象是组成软件结构的基本元素，它是数据说明和算法的集合D、模块是组成软件结构的基本元素，它是数据说明和算法的集合

查看答案

NUTCH主要应用于（）A、分布式数据存储B、并行计算C、分布式数据抓取D、分布式检索

查看答案

单选题（）是性质相同的数据元素的集合。A数据项B数据对象C数据元素D数据类型E操作F抽象数据类型

查看答案

单选题下列有关RDD的说法中错误的是（）。ARDD是一个只读的，可分区的分布式数据集。BRDD默认存储在磁盘，当磁盘不足时，溢写到内存。CRDD数据以分区的形式在集群中存储。DRDD具有血统机制，发生数据丢失时，可快速进行数据恢复。

查看答案

单选题Spark引入了一个称为（）的概念，它是一个不可变的、容错的、分布式对象集合。ARDDBSpark StreamingCSpark SQLDShark

查看答案

判断题Spark是一个类似于MapReduce的分布式计算框架，其核心是弹性分布式数据集A对B错

查看答案

单选题NUTCH主要应用于（）A分布式数据存储B并行计算C分布式数据抓取D分布式检索

查看答案

( 难度：中等)关于spark中RDD说法错误的是：A.宽依赖指的是多个子RDD的分区会依赖同一个父RDD的分区，关系是一对多B.窄依赖指的是每一个父RDD的分区最多被子RDD的一个分区使用，是一对一的C.宽依赖中会有shuffle的产生D.窄依赖中会有shuffle的产生

查看答案

51题库考试学习网

51tk.com

RDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

相关考题：