首页 > 其他 > 详细

有关Spark中FlatMap算子源码理解

时间:2020-05-09 17:31:46      阅读:123      评论:0      收藏:0      [点我收藏+]

首先用scala语言编辑Spark程序,通过SparkContext创建RDD

技术分享图片

点击源码,发现地层创建了MapPartitionsRDD对象,描述信息为:通过第一个传入的函数,对这个RDD中的所有元素做运算,之后扁平结果集,返回一个新的RDD。

技术分享图片

其中sc.clean(f)主要是做闭包检测。如果传入参数没问题的话返回值也是f:

技术分享图片

而Spark中的flatmap则是调用的iter的flatmap算子,与Scala不同,Scala中集合调用的flatmap是将数据先存入Mutable.Builder里面。再进行扁平化。

 

有关Spark中FlatMap算子源码理解

原文:https://www.cnblogs.com/laogou-idea/p/12707572.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!