首页 > Windows开发 > 详细

SaprkApi常用案例

时间:2020-07-02 18:58:02      阅读:64      评论:0      收藏:0      [点我收藏+]

原文请参考:https://blog.csdn.net/youbitch1/java/article/details/88581251

 

数据混洗:

    因为常常有重复的元素.如果只要唯一的元素,我们可以使用RDD.distinct() 转化操作来生成一个只包含不同元素的新RDD
    不过distinct操作的开销很大,因为数据是通过网络混洗的,后续再继续了解下有没有优化的办法

集合操作:

    union
        返回一个包含两个 RDD 中所有元素的 RDD
        如果输入的RDD中有重复数据,Spark的union()操作也会去除重复数据
    intersection
        只返回两个RDD中都有的元素
        intersection() 在运行时也会去掉所有重复的元素()单个RDD内的重复元素也会一起移除)
        intersection性能比union差,它需要通过网络混洗数据来发现共有的元素

原文链接:https://blog.csdn.net/youbitch1/java/article/details/88581251

技术分享图片

 

SaprkApi常用案例

原文:https://www.cnblogs.com/lshan/p/13226352.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!