1. Reduce Join工作原理
- Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。
2. Map Join
- 使用场景:适用于一张表十分小,一张表很大的场景;
- 在 Map 端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能减少数据倾斜;
Hadoop Join
原文:https://www.cnblogs.com/linkworld/p/10957487.html