首页 > 其他 > 详细

spark新能优化之多次使用RDD的持久化或checkPoint

时间:2016-07-13 22:45:23      阅读:291      评论:0      收藏:0      [点我收藏+]

如果程序中,对某一个RDD,基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算。

此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作。(也就是多次用到中间RDD的生成值时可以持久化再checkPoint(当持久化数据没的时候会去checkPoint中寻找,详细见spark源码。))

spark新能优化之多次使用RDD的持久化或checkPoint

原文:http://www.cnblogs.com/yaohaitao/p/5667769.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!