首页 > 其他 > 详细

spark算子介绍

时间:2020-07-02 18:52:42      阅读:62      评论:0      收藏:0      [点我收藏+]

1)map :返回的结果是one2one

2)flatmap:返回的结果是one2many,对数据中的每一个元素都执行函数。

3)sample:通常查看rdd数据的分布情况从而来完成一些调优和优化工作,数据倾斜(dataskew),通常sample+reduceBykey算子就可以知道哪个key出现的次数最多,出现次数最多的key往往就是发生数据倾斜的key,接下来就是进行数据倾斜的优化了。

4)Union两个算子合并,相当于++

5)join 

 

spark算子介绍

原文:https://www.cnblogs.com/18800105616a/p/13226255.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!