spark算子介绍

时间：2020-07-02 18:52:42 阅读：64 评论：0 收藏：0 [点我收藏+]

1）map :返回的结果是one2one

2）flatmap：返回的结果是one2many,对数据中的每一个元素都执行函数。

3）sample：通常查看rdd数据的分布情况从而来完成一些调优和优化工作，数据倾斜（dataskew）,通常sample+reduceBykey算子就可以知道哪个key出现的次数最多，出现次数最多的key往往就是发生数据倾斜的key,接下来就是进行数据倾斜的优化了。

4）Union两个算子合并，相当于++

5）join

原文：https://www.cnblogs.com/18800105616a/p/13226255.html

踩

(0)

评论一句话评论（0）

分享档案

更多>