计算机系统应用教程网站

网站首页 > 技术文章 正文

阿里P8专家,深入解析分布式计算:Strom+Scala+Spark,共15.93G

btikc 2024-10-12 11:41:11 技术文章 9 ℃ 0 评论

前言

今天给大家分享的是Spark体系之分布式计算:Strom,Scala,Spark的技术分享,希望大家能够喜欢!

主要内容

Strom

Storm是分布式实时计算系统,用于数据的实时分析、持续计算,分布式RPC等。

Scala

Scala是一种混合功能编程语言,类似java,运行于JVM,集成面向对象编程和函数式编程的各种特性。
(1)Scala可以与Java互操作:它用scalac这个编译器把源文件编译成Java的class文件,从Scala中调用所有的Java类库,也同样可以从Java应用程序中调用Scala的代码
(2)Spark是专为大规模数据处理而设计的快速通用的计算引擎,而spark就是scala编写的。
(3)对比Groovy和Scala:Groovy的优势在于易用性以及与Java无缝衔接,Scala的优势在于性能和一些高级特性

数据类型

Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

(1)Spark是Scala编写,方便快速编程。
(2)Spark与MapReduce的区别
都是分布式计算框架,Spark基于内存,MR基于HDFS;
Spark处理数据的能力一般是MR的十倍以上;
有DAG有向无环图来切分任务的执行先后顺序;
(3)Spark运行模式
Local:多用于本地测试,如在eclipse,idea中写程序测试等。
Standalone:Standalone是Spark自带的一个资源调度框架,它支持完全分布式。
Yarn:Hadoop生态圈里面的一个资源调度框架,Spark实现了AppalicationMaster接口,所以可以基于Yarn来计算的,国内用yarn的多。
Mesos:资源调度框架,国内用的少。

Spark、Strom、Scala学习思维导图


Spark、Strom、Scala学习视频(资料+笔记+代码+作业)路线

Strom

01 应用场景 架构模型 伪分布式与全分布式搭建

02 异步与同步时时分析框架与源码和实例

03容错 事务和项目案例

Spark

1.Scala语言特点,基础用法,类型推断,函数式编程,特质特性,模式匹配,样例类,偏函数

2.Scala隐式转换类型,Actor通信模型,Actor通信模型案例,Scala版本Spark-WordCount

Scala

1.初识Spark,Spark编程核心RDD,Spark算子类别详解,Spark算子Java+Scala 版本实现

2.Spark持久化算子,Spark集群搭建,Spark基于Yarn任务提交,Spark基于Standalone+Yarn任务提交流程详解

3.SparkRDD的宽窄依赖,pipeline计算模型,资源调度与任务调度过程,PVUV案例,Spark任务提交参数详解

4.Spark源码之Master启动、Driver注册、Application注册、Master划分资源、Executor启动、任务调度

5.广播变量,累加器原理,SparkWEBUI,SparkMasterHA搭建,Spark日志管理配置,SparkShuffle详解

6.SparkSQL之UDAF函数详解,开窗函数,初始SparkStreaming,SparkStreaming读取数据详细过程原理及算子操作

7.Kafka分布式消息系统原理,SparkStreaming与Kafka整合的问题及策略,手动维护kafka 消费者offset

Spark、Strom、Scala学习视频(资料+笔记+代码+作业)大集合

到此就整理完了,也就不浪费大家的时间了,需要获取的同学就可以转发+关注小编,私信小编“学习”来得到获取方式了。

感谢大家的支持,还请大家多多指教。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表