首页 > 其他 > 详细

Spark性能调优1-数据倾斜特征/常见原因/后果/常见调优方案

时间:2019-09-25 15:09:07      阅读:225      评论:0      收藏:0      [点我收藏+]

数据倾斜特征:个别Task处理大部分数据

后果:1.OOM;2.速度变慢,甚至变得慢的不可接受

 

常见原因:

数据倾斜的定位:

1.WebUI(查看Task运行的数据量的大小)。

2.Log,查看log中哪一行出现OOM,查找具体哪个Stage,进而确定哪一个shuffle产生了数据倾斜。

3.查看代码,主要是join,groupByKey,reduceByKey等代码。

4.对数据特征分布进行分析。

Spark性能调优1-数据倾斜特征/常见原因/后果/常见调优方案

原文:https://www.cnblogs.com/ywdjx/p/spark-performance1.html

(1)
(1)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!