Spark shuffle过程

时间：2017-02-14 22:05:45 阅读：304 评论：0 收藏：0 [点我收藏+]

1.官网

　　 http://spark.apache.org/docs/1.6.1/configuration.html#shuffle-behavior

　　Spark数据进行重新分区的操作就叫做shuffle过程

　　技术分享

2.介绍

　　SparkStage划分的时候，将最后一个Stage称为ResultStage(ResultTask)，其它Stage叫做ShuffleMapStage(ShuffleMapTask)

　　技术分享

3.SparkShuffle实现　

　　基于ShuffleManager来实现，1.6.1版本中存在两种实现：HashShuffleManager和SortShuffleManager(默认)；

　　由参数spark.shuffle.manager决定(sort or hash)

4.hash shuffle

　　在Spark1.2.x版本之前，只有一个ShuffleManager，就是hash
　　hash shuffle在以前的版本中存在一个问题：
　　　　会产生大量的磁盘问题
　　优化：
　　　　将一个Executor上的所有Task的执行结果合并到一起，减少文件的数量
　　　　spark.shuffle.consoldateFiles=true

5.sort shuffle
　　在1.2版本之后，默认是SortManager，就是sort
　　小问题：所有的情况都进行排序(不管数据量的大小)<通过bypass运行模式可以解决>
　　两种运行：
　　　　普通运行模式：
　　　　　　中间会涉及到sort操作
　　　　bypass运行模式：
　　　　　　针对小数据量的情况下，不进行排序，类似于优化后的HashManager(性能没有HashManager<优化后>高)
　　　　　　-1. 当RDD的task数量小于spark.shuffle.sort.bypassMergeThreshold(默认200)的时候启用
　　　　　　-2. 不是聚合类shuffle算子（比如：不能是reduceByKey，可以是join）

Spark shuffle过程

原文：http://www.cnblogs.com/juncaoit/p/6399273.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)