Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort

时间：2014-05-15 13:25:25 阅读：366 评论：0 收藏：0 [点我收藏+]

简介

可插入的 shuffle 和 sort 功能，允许在shuffle 和 sort 逻辑中用可选择的实现类替换。这个情况的例子是：用一个不是HTTP的应用协议，如RDMA来 shuffle 从Map节点中到Reducer节点的数据；或者用自定义的允许 Hash聚合和Limit-N查询的算法来代替sort逻辑。

重要: 可插入的 shuffle sort 功能是实验性的、不稳定。这意味着提供的API可能改变或破坏未来Hadoop版本的兼容性。

实现一个自定义的 Shuffle 和 Sort

一个自定义的 shuffle 实现需要一个 org.apache.hadoop.yarn.server.nodemanager.containermanager.AuxServices.AuxiliaryService 在 NodeManagers 上运行的实现类和 org.apache.hadoop.mapred.ShuffleConsumerPlugin 在Reducer任务上运行的实现类。

由 Hadoop 提供的默认实现可以作为参考：

org.apache.hadoop.mapred.ShuffleHandler
org.apache.hadoop.mapreduce.task.reduce.Shuffle

一个自定义的 sort 实现需要一个 org.apache.hadoop.mapred.MapOutputCollector 在Mapper任务上运行的实现类和(可选的，依赖于sort实现)实现类一个 org.apache.hadoop.mapred.ShuffleConsumerPlugin在Reducer任务上运行的实现类。

由 Hadoop 提供的默认实现可以作为参考：

org.apache.hadoop.mapred.MapTask$MapOutputBuffer
org.apache.hadoop.mapreduce.task.reduce.Shuffle

配置

除了运行在 NodeManagers 上的辅助的服务帮助 shuffle(默认是 ShuffleHandler)，所有的可插入组件运行在作业任务上。这意味着，他们在每一个作业上配置。帮助Shuffle 的辅助服务必须在NodeManager上进行配置。

Job 配置属性 (在每个作业上):

属性	默认值	说明
`mapreduce.job.reduce.shuffle.consumer.plugin.class`	`org.apache.hadoop.mapreduce.task.reduce.Shuffle`	要用的 `ShuffleConsumerPlugin实现`
`mapreduce.job.map.output.collector.class`	`org.apache.hadoop.mapred.MapTask$MapOutputBuffer`	要用的 `MapOutputCollector实现`

这些属性也可以在 mapred-site.xml 中配置，以对所有作业修改默认值。

NodeManager 属性配置, `yarn-site.xml,所有节点上`:

属性	默认值	说明
`yarn.nodemanager.aux-services`	`...,mapreduce_shuffle`	辅助的服务名
`yarn.nodemanager.aux-services.mapreduce_shuffle.class`	`org.apache.hadoop.mapred.ShuffleHandler`	要用的辅助的类

重要: 如果在默认的 mapreduce_shuffle 服务之外设置一个辅助的服务，那么新的服务key 应该添加到 yarn.nodemanager.aux-services 属性中,例如 mapred.shufflex. 然后属性定义相关的类必须是 yarn.nodemanager.aux-services.mapreduce_shufflex.class.

Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort,布布扣,bubuko.com

Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort

原文：http://blog.csdn.net/laozhaokun/article/details/25862485

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort

简介

实现一个自定义的 Shuffle 和 Sort

配置

Job 配置属性 (在每个作业上):

NodeManager 属性配置, yarn-site.xml,所有节点上:

NodeManager 属性配置, `yarn-site.xml,所有节点上`: