SaprkApi常用案例

时间：2020-07-02 18:58:02 阅读：71 评论：0 收藏：0 [点我收藏+]

原文请参考：https://blog.csdn.net/youbitch1/java/article/details/88581251

数据混洗:

    因为常常有重复的元素.如果只要唯一的元素,我们可以使用RDD.distinct() 转化操作来生成一个只包含不同元素的新RDD
    不过distinct操作的开销很大,因为数据是通过网络混洗的,后续再继续了解下有没有优化的办法

集合操作:

    union
        返回一个包含两个 RDD 中所有元素的 RDD
        如果输入的RDD中有重复数据,Spark的union()操作也会去除重复数据
    intersection
        只返回两个RDD中都有的元素
        intersection() 在运行时也会去掉所有重复的元素()单个RDD内的重复元素也会一起移除)
        intersection性能比union差,它需要通过网络混洗数据来发现共有的元素

原文链接：https://blog.csdn.net/youbitch1/java/article/details/88581251

技术分享图片

SaprkApi常用案例

原文：https://www.cnblogs.com/lshan/p/13226352.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)