spark浅谈(3):

时间：2018-11-18 14:54:14 阅读：191 评论：0 收藏：0 [点我收藏+]

一、shuffle操作

　　1.spark中特定的操作会触发我们都知道的shuffle事件，shuffle是spark进行数据重新分布的机制，这通常涉及跨执行程序和机器来赋值数据，使得混洗称为复杂而且昂贵的操作。

　　2.为了理解shuffle过程中所发生的事情，我们先来关注reduceByKey操作的例子。reduceByKey操作过程生成一个新的RDD，将其单个键的所有值组合成一个元组中和对该键关联的所有值执行reduce函数的结果。挑战在于，并非所有键的所有值都位于同一个分区上，甚至是同一个机器上，但是他们必须位于同一位置上才能计算结果。

　　3.spark中，数据通常不是跨分区分布的，以方便其在必要的位置来执行指定的操作，在计算过程中，一个单独的任务会执行在一个单独的分区上，因此为了组织reduceByKey执行单个reduce任务的所有数据，spark需要执行全部的操作，它必须从所有分区来读取所有键的所有值，然后将各个值组合在一起以计算每个键的最终结果，这个过程称之为shuffle。

　　4.尽管

spark浅谈(3):

原文：https://www.cnblogs.com/bigdata-stone/p/9977846.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)