1)map :返回的结果是one2one
2)flatmap:返回的结果是one2many,对数据中的每一个元素都执行函数。
3)sample:通常查看rdd数据的分布情况从而来完成一些调优和优化工作,数据倾斜(dataskew),通常sample+reduceBykey算子就可以知道哪个key出现的次数最多,出现次数最多的key往往就是发生数据倾斜的key,接下来就是进行数据倾斜的优化了。
4)Union两个算子合并,相当于++
5)join
原文:https://www.cnblogs.com/18800105616a/p/13226255.html