网站首页 > 技术文章正文

大数据学习之计算天下——SPARK的那些事

btikc 2024-10-12 11:42:50 技术文章 33 ℃ 0 评论

大数据学习过程中，不可或缺的就是Spark技术，今天集中分享Spark的一系列技术问题，大家在学习过程中如果遇到困难，可以留言互动，我都将知无不言，言无不尽

Q1：MapReduce的局限性有哪些？

A1：

① MapReduce框架局限性

它仅支持Map和Reduce两种操作，而且处理效率低效，具体有这四点：

a. Map中间结果写磁盘， Reduce写HDFS，多个MR之间通过HDFS交换数据；

b. 任务调度和启动开销大；

c. 无法充分利用内存；

d. Map端和Reduce端均需要排序；

而且它不适合迭代计算（如机器学习、图计算等），交互式处理（数据挖掘）和流式处理（点击日志分析）。

② MapReduce编程不够灵活，最好尝试scala函数式编程。

Q2：现有的各种计算框架有哪些？

A2：

① 批处理有MapReduce、Hive、Pig

② 流式计算有Storm

③ 交互式计算有Impala、Presto

而Spark是一种灵活的框架，可同时进行批处理、流式计算、交互式计算！

Q3：Spark到底有哪些特点？

A3：

高效（比MapReduce快10~100倍）性

① 内存计算引擎，提供Cache机制来支持需要反复迭代计算或者多次数据共享，减少数据读取的IO开销

② DAG引擎，减少多次计算之间中间结果写到HDFS的开销

③ 使用多线程池模型来减少task启动开稍， shuffle过程中避免

④ 不必要的sort操作以及减少磁盘IO操作

易用性

① 提供了丰富的API，支持Java， Scala， Python和R四种语言

② 代码量比MapReduce少2~5倍

能与Hadoop集成

① 读写HDFS/Hbase

② 与YARN集成

Q4：Spark中的RDD如何理解？

A4：

RDD(Resilient Distributed Datasets)，弹性分布式数据集，有以下几个特点：

① 分布在集群中的只读对象集合（由多个Partition构成）

② 可以存储在磁盘或内存中（多种存储级别）

③ 通过并行“转换” 操作构造

④ 失效后自动重构

Q5：Spark中的RDD有哪些操作？

A5：

Transformation，可通过程序集合或者Hadoop数据集构造一个新的RDD，通过已有的RDD产生新的RDD，举例： map，filter，groupBy，reduceBy；

Action，通过RDD计算得到一个或者一组值，举例：count，reduce，saveAsTextFile；

而它们的接口定义方式不同，Transformation： RDD[X] -> RDD[Y]；Action: RDD[X] -> Z (Z不是一个RDD, 可能是基本类型，数组等)

同时，对于惰性执行（ Lazy Execution）也有区别，Transformation只会记录RDD转化关系，并不会触发计算；Action是触发程序执行（分布式）的算子；

Q6：Spark提交任务执行的命令？

A6：

spark-submit\

--masteryarn-cluster\

--class com.xxx.examples.WordCount\

--driver-memory 2g\

--driver-cores 1\

--executor-memory 3g\

--executor-cores 3\

--num-executors 3

Q7：Spark的运行模式？

A7：

① local（本地模式），单机运行，通常用于测试。

② standalone（独立模式），独立运行在一个集群中。

③ YARN/mesos，运行在资源管理系统上，比如YARN或mesos。其中Spark On YARN存在两种模式yarn-client和yarn-cluster。

//话题8：Spark的本地模式怎么理解？

回复：

将Spark应用以多线程方式，直接运行在本地，便于调试。本地模式分类如下：

① local：只启动一个executor

② local[K]：启动K个executor

③ local[*]：启动跟cpu数目相同的executor

//话题9：Spark On Yarn模式的运行机制？

回复：

追踪一个应用程序运行过程

bin/spark-submit --master yarn-cluster --class …

core/src/main/scala/org/apache/spark/deploy/SparkSubmit.scala

yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala

yarn/src/main/scala/org/apache/spark/deploy/yarn/ApplicationMaster.scala

core/src/main/scala/org/apache/spark/SparkContext.scala

core/src/main/scala/org/apache/spark/executor/Executor.scala

上一篇：第二篇|Spark core编程指南 spark编程软件
下一篇：分享几点 Spark Streaming 调优实践经验

网站首页 > 技术文章正文

大数据学习之计算天下——SPARK的那些事

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

大数据学习之计算天下——SPARK的那些事

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: