首页 > 其他 > 详细

[大牛翻译系列]Hadoop Mapreduce 连接(Join)之四:选择最佳连接策略

时间:2014-03-06 07:49:25      阅读:475      评论:0      收藏:0      [点我收藏+]

4.1.4 为你的数据选择最佳连接策略

已介绍的每个连接策略都有不同的优点和缺点。那么,你怎么来判断哪个最适合你的数据?

图4.11给出了一个决策树。这个决策树是于论文《A Comparison of Join Algorithms》中提到的一个决策树的改进版本。

 

bubuko.com,布布扣

 

图4.11中的决策树可以归纳为以下三点:

  • 如果数据集中有一个足够小到可以放到mapper的内存中,那么map端的复制连接就足够了。
  • 如果每个数据集都很大,同时其中一个数据集可以在经过一定条件过滤以后大幅度地减小,那么半连接将会很有效。
  • 如果你无法预处理你的数据,并且数据集大到不能够被缓存,那么你就需要在reducer中使用重分区连接了。

因为MapReduce将map的输出键排序并关联到一起,在reduce端执行连接是可能的。在下一个部分中,我们将研究MapReduce的一般排序技术。

[大牛翻译系列]Hadoop Mapreduce 连接(Join)之四:选择最佳连接策略,布布扣,bubuko.com

[大牛翻译系列]Hadoop Mapreduce 连接(Join)之四:选择最佳连接策略

原文:http://www.cnblogs.com/datacloud/p/3582113.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!