网站首页 > 技术文章 正文
RDD算子是Spark计算框架中定义的对RDD进行操作的各种函数,从RDD算子的功能可将RDD算子分为四类:创建算子、转换算子、缓存算子和行动算子。
创建算子
创建RDD有两种方式:
一种是将基于Scala的集合类型数据(如List或Set类型)分布到集群中生成RDD,
另一种则是加载外部数据源(如本地文本文件或HDFS文件)生成RDD。
上面所提到的两种方式都是通过SparkContext的接口函数提供的,前者有两种方法:makeRDD和parallelize,后者则因为其支持不同形式和不同格式的文件,有较多的函数。
基于集合类型数据创建RDD
SparkContext.makeRDD:创建RDD
# 输入参数seq为一个集合数据集,参数String序列指定了希望将该数据集产生的RDD分区希望放置的节点, # 可以用Spark节点的主机名(hostname)描述 def makeRDD[T](seq: Seq[(T, Seq[String])])(implicit arg0: ClassTag[T]): [RDD] # 输入参数seq为一个数据集,numSlices是分区数量,若不指定数量, # 将使用Spark配置中的spark.default.parallelism参数所生成的defaultParallelism数值,为默认的分区数量。 def makeRDD[T](seq: Seq[T], numSlices: Int = [defaultParallelism])(implicit arg0: ClassTag[T]): [RDD]
SparkContext.parallelize:数据并行化生成RDD
# 将集合数据seq分布到节点上形成RDD,并返回生成的RDD。numSlices是分区数量, # 若不指定数量,将使用Spark配置中的spark.default.parallelism参数所生成的defaultParallelism数值,为默认的分区数量。 def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]
基于外部数据创建RDD
SparkContext.textFile——基于文本文件创建RDD
# 从HDFS、本地文件系统或者其他Hadoop支持的文件系统,按行读入指定路径下的文本文件,并返回生成的RDD。 # path是待读入的文本文件的路径,minPartitions是分区数量,不给定由spark配置中参数生成默认值 def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String]
SparkContext.wholeTextFiles——基于一个目录下的全部文本文件创建RDD
def wholeTextFiles(path: String, minPartitions: Int = defaultMinPartitions): RDD[(String, String)]
Read a directory of text files from HDFS, a local file system (available on all nodes), or any Hadoop-supported file system URI. Each file is read as a single record and returned in a key-value pair, where the key is the path of each file, the value is the content of each file.
基于Hadoop API从Hadoop文件数据创建RDD
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.SparkContext
猜你喜欢
- 2024-10-12 大佬用10小时就把Spark讲完了,附6大技术文档
- 2024-10-12 浅析图数据库 Nebula Graph 数据导入工具——Spark Writer
- 2024-10-12 Spark Streaming 和 Flink 谁是数据开发者的最爱?
- 2024-10-12 分享几点 Spark Streaming 调优实践经验
- 2024-10-12 大数据学习之计算天下——SPARK的那些事
- 2024-10-12 第二篇|Spark core编程指南 spark编程软件
- 2024-10-12 Spark计算引擎 spark是基于什么计算引擎
- 2024-10-12 Spark Shuffle机制 sparkshuffle原理
- 2024-10-12 一文带你了解SparkStreaming窗口函数
- 2024-10-12 深度预警:Spark运行原理 简述spark的运行架构和原理
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)