计算机系统应用教程网站

网站首页 > 技术文章 正文

spark.sql.shuffle.partitions与spark.default.parallelism作用

btikc 2024-10-12 11:42:08 技术文章 7 ℃ 0 评论

spark.sql.shuffle.partitions 与spark.default.parallelism并行度的作用

1.SparkSQL和DataFrame的join,group by等操作:

通过spark.sql.shuffle.partitions控制分区数,默认为200,根据shuffle的量以及计算的复杂度提高这个值。

Configures the number of partitions to use when shuffling data for joins or aggregations.

2.对于Rdd的join,groupBy,reduceByKey操作:

通过spark.default.parallelism控制shuffle read与reduce处理的分区数,默认为运行任务的core的总数(mesos细粒度模式为8个,local模式为本地的core总数),官方建议为设置成运行任务的core的2-3倍。

3.注意:在没有使用shuffle操作的算子时,这两参数不会起作用。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表