原文请参考:https://blog.csdn.net/youbitch1/java/article/details/88581251
数据混洗: 因为常常有重复的元素.如果只要唯一的元素,我们可以使用RDD.distinct() 转化操作来生成一个只包含不同元素的新RDD 不过distinct操作的开销很大,因为数据是通过网络混洗的,后续再继续了解下有没有优化的办法 集合操作: union 返回一个包含两个 RDD 中所有元素的 RDD 如果输入的RDD中有重复数据,Spark的union()操作也会去除重复数据 intersection 只返回两个RDD中都有的元素 intersection() 在运行时也会去掉所有重复的元素()单个RDD内的重复元素也会一起移除) intersection性能比union差,它需要通过网络混洗数据来发现共有的元素 原文链接:https://blog.csdn.net/youbitch1/java/article/details/88581251
原文:https://www.cnblogs.com/lshan/p/13226352.html