计算机系统应用教程网站

网站首页 > 技术文章正文

spark.sql.shuffle.partitions与spark.default.parallelism作用

btikc 2024-10-12 11:42:08 技术文章 7 ℃ 0 评论

spark.sql.shuffle.partitions 与spark.default.parallelism并行度的作用

1.SparkSQL和DataFrame的join,group by等操作:

通过spark.sql.shuffle.partitions控制分区数，默认为200，根据shuffle的量以及计算的复杂度提高这个值。

Configures the number of partitions to use when shuffling data for joins or aggregations.

2.对于Rdd的join,groupBy,reduceByKey操作:

通过spark.default.parallelism控制shuffle read与reduce处理的分区数，默认为运行任务的core的总数（mesos细粒度模式为8个，local模式为本地的core总数），官方建议为设置成运行任务的core的2-3倍。

3.注意：在没有使用shuffle操作的算子时，这两参数不会起作用。

上一篇：第三篇|Spark SQL编程指南 spark sql入门与实践指南
下一篇：大佬花两年时间整理的全网最全Spark学习pdf+视频

猜你喜欢

2024-10-12 大佬用10小时就把Spark讲完了，附6大技术文档
2024-10-12 浅析图数据库 Nebula Graph 数据导入工具——Spark Writer
2024-10-12 Spark Streaming 和 Flink 谁是数据开发者的最爱?
2024-10-12 分享几点 Spark Streaming 调优实践经验
2024-10-12 大数据学习之计算天下——SPARK的那些事
2024-10-12 第二篇|Spark core编程指南 spark编程软件
2024-10-12 Spark计算引擎 spark是基于什么计算引擎
2024-10-12 Spark Shuffle机制 sparkshuffle原理
2024-10-12 一文带你了解SparkStreaming窗口函数
2024-10-12 深度预警:Spark运行原理简述spark的运行架构和原理

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

最近发表