首页 > 其他 > 详细

用over进行开窗 distribute by sort by和partition by order by 用于去重哪个效率比较高?

时间:2021-08-03 18:38:34      阅读:96      评论:0      收藏:0      [点我收藏+]

1.用over开窗时,distribute by sort by换成partition by order by,分区表、分桶表、非分区表的执行计划都一样,1.10版本都是一样的--测试后时间上基本无差别
2.对分桶表进行测试,如果分桶的字段和distribute by sort by或者partition by order by是同一字段的话,分桶表的性能比较非分桶表好:这个比较好理解,本来分桶后数据就是局部有序的
3.单独使用order只产生一个reducer(全局排序),sort(局部排序)产生多个reducer;
4.distribute by col – 按照col列把数据分散到不同的reduce,
group by把相同key的数据聚集到一起,后续必须是聚合操作,partition by 是分区
5.distribute by sort by 等同于cluster by ;

用over进行开窗 distribute by sort by和partition by order by 用于去重哪个效率比较高?

原文:https://www.cnblogs.com/suheng01/p/15094659.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!