首页 > 其他 > 详细

spark的优化

时间:2021-03-30 16:27:35      阅读:15      评论:0      收藏:0      [点我收藏+]
1.尽可能复用RDD
2.对多次使用的RDD进行持久化(cache、persist,持久化的几种策略:MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY...等)
3.(类似mapjoin)对于大RDD join 小RDD的情况,可以使用广播变量的方式把小RDD的数据发送到各个excutor,然后在大RDD的算子中取出来进行连接,避免shffle
4.使用reduceByKey替换groupByKey:reduceByKey会在shuffle之前先进行一次合并,减少shuffle数据量,提升性能
5.尽量使用mapPartitions替代map
6.尽量使用foreachPartitions替代foreach

spark的优化

原文:https://www.cnblogs.com/yangxcc/p/14596724.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!