[6.824: Distributed Systems] Lab1 Part1

时间：2015-11-29 23:03:07 阅读：491 评论：0 收藏：0 [点我收藏+]

　　 6.824: Distributed Systems是MIT的分布式系统课程，Lab1任务是通过build a MapReduce library学习Go语言和分布式环境下的容错技术（fault tolerance）

　　点击这里进入课程，由于仍处在分布式系统的学习阶段，有错误还望指出，Thx

　　首先看一个工程目录，只选取了Lab1会用到的main，mapreduce package：

　　下面简要介绍一下MapReduce的编程模型（Programming Model）

　　MapReduce起源于Google这篇闻名的Paper，用来简化大数据集的处理（Simplified Data Processing on Large Clusters）,分为Map和Reduce两个过程：

　　Map：每个Map都产生一个key/value pairs set

　　Reduce：每个Reduce过程都将一些key/value pairs set中具有相同key的value做某种操作（对于Word Count，将value相加）

　 下面通过经典的 Word Count来说明MapReduce的设计方式：

　　Word Count 任务很简单，统计一份大文件（kjv12.txt）每个单词（Word）的频率（Count）,kjv12.txt部分如下：

　　Map&Reduce工作流程图如下：

Init：确定Map，Reduce Worker的个数，分别表示为nMap，nReduce，这里取nMap=3，nReduce=2
Split：将原始文件kjv12.txt分割（Split）nMap个（等大的）文件，记为kjv12.txt_0， kjv12.txt_1，kjv12.txt_2
DoMap i：Map Func接收kjv12 i作为输入，生成一个<word, count> list，并生成nReduce个输出文件，采用word%nReduce决定<word，count>输出到哪个文件
DoReduce i：Reduce Func接收具有相同二级后缀的文件（kjv12.txt_*_i），并将相同word的count做加和，输出到kjv12.txt_res_i
Merge：将kiv12.txt_res_*作简单合并，生成最终文件mrtmp.kjv12.txt

　　具体代码是这样的，全部代码在这里：

　　程序的正确性容易验证：

不遗漏（No Miss）：这点是显而易见的
不重复（No Repeat）：kjv12.txt_0，kjv12.txt_1都有"Google"，那么都会输出到具有相同二级后缀的文件，即kjv12.txt_0/1_("Google"/nReduce)

　　　　　　　　　　　　 最终输出到kjv12.txt_res_("Google"/nReduce)，不会重复计算

　　Lab1 Part1只是帮助了解MapDeduce的编程模型，是单机-单线程运行

　　Lab1 Part2会通过单机-多线程协作（RPC&Go Channel）来模拟多节点分布式环境

原文：http://www.cnblogs.com/zjuwh/p/5001658.html

踩

(0)

评论一句话评论（0）

分享档案

更多>