已介绍的每个连接策略都有不同的优点和缺点。那么,你怎么来判断哪个最适合你的数据?
图4.11给出了一个决策树。这个决策树是于论文《A Comparison of Join Algorithms》中提到的一个决策树的改进版本。
图4.11中的决策树可以归纳为以下三点:
因为MapReduce将map的输出键排序并关联到一起,在reduce端执行连接是可能的。在下一个部分中,我们将研究MapReduce的一般排序技术。
[大牛翻译系列]Hadoop Mapreduce 连接(Join)之四:选择最佳连接策略,布布扣,bubuko.com
[大牛翻译系列]Hadoop Mapreduce 连接(Join)之四:选择最佳连接策略
原文:http://www.cnblogs.com/datacloud/p/3582113.html