- master和worker并不知道他们执行了什么,他们只是在执行
- 用户并不知道分布式具体是怎么实现的,对他而言写好map、reduce即可
- mapreduce是不与具体任务耦合的
- map、reduce就只是一个函数,他们有他们自己的返回值,仅此而已
- shuffles

- GFS和Mapreduce混用减少了网络流量,尽量在同一台机器上使用、存储数据
- GFS的特性使得输出的结果需要备份,这也是一大笔流量
碎碎念:
原文:https://www.cnblogs.com/huzhengyu/p/14746390.html