云计算(8)--MapReduce如何处理fault

时间：2015-10-14 23:21:21 阅读：274 评论：0 收藏：0 [点我收藏+]

一些常见的故障

技术分享

NM周期性的给RM发送heartbeats,如果RM发现server fails,则它会让所有与这个server有关的AM知道，让受影响的job的AM采取一些action,重新分配它的task.

目前为止还没有能监测到RM failure的情况，我们使用hard backup,如果fail则使用secondary RM

Slow servers

某个task阻塞会导致整个job延缓，如一个map task阻塞，则reduce task无法进行下去。

keep track of progress of each task:跟踪这个任务，看这个任务进行到了百分之多少。

原文：http://www.cnblogs.com/yan2015/p/4878984.html

踩

(0)

评论一句话评论（0）

分享档案

更多>