6.824: Distributed Systems是MIT的分布式系统课程,Lab1任务是通过build a MapReduce library学习Go语言和分布式环境下的容错技术(fault tolerance)
点击这里进入课程,由于仍处在分布式系统的学习阶段,有错误还望指出,Thx
首先看一个工程目录,只选取了Lab1会用到的main,mapreduce package:
下面简要介绍一下MapReduce的编程模型(Programming Model)
MapReduce起源于Google这篇闻名的Paper,用来简化大数据集的处理(Simplified Data Processing on Large Clusters),分为Map和Reduce两个过程:
Map:每个Map都产生一个key/value pairs set
Reduce:每个Reduce过程都将一些key/value pairs set中具有相同key的value做某种操作(对于Word Count,将value相加)
下面通过经典的 Word Count来说明MapReduce的设计方式:
Word Count 任务很简单,统计一份大文件(kjv12.txt)每个单词(Word)的频率(Count),kjv12.txt部分如下:
Map&Reduce工作流程图如下:
具体代码是这样的,全部代码在这里:
程序的正确性容易验证:
最终输出到kjv12.txt_res_("Google"/nReduce),不会重复计算
Lab1 Part1只是帮助了解MapDeduce的编程模型,是单机-单线程运行
Lab1 Part2会通过单机-多线程协作(RPC&Go Channel)来模拟多节点分布式环境
[6.824: Distributed Systems] Lab1 Part1
原文:http://www.cnblogs.com/zjuwh/p/5001658.html