首页 > 其他 > 详细

Hadoop基础(二十六):mapreduce join应用

时间:2020-07-19 23:10:52      阅读:87      评论:0      收藏:0      [点我收藏+]

1 Reduce Join

技术分享图片

 

 

2 Map Join

1.使用场景

Map Join适用于一张表十分小、一张表很大的场景

2.优点

思考在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办?

在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。

3.具体办法:采用DistributedCache

1)在Mappersetup阶段,将文件读取到缓存集合中

2)在驱动函数中加载缓存。

// 缓存普通文件到Task运行节点

job.addCacheFile(new URI("file://e:/cache/pd.txt"));

技术分享图片

 

Hadoop基础(二十六):mapreduce join应用

原文:https://www.cnblogs.com/qiu-hua/p/13341103.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!