首页 > 其他 > 详细

[6.824: Distributed Systems] Lab1 Part1

时间:2015-11-29 23:03:07      阅读:482      评论:0      收藏:0      [点我收藏+]

   6.824: Distributed Systems是MIT的分布式系统课程,Lab1任务是通过build a MapReduce library学习Go语言和分布式环境下的容错技术(fault tolerance)

  点击这里进入课程,由于仍处在分布式系统的学习阶段,有错误还望指出,Thx

  首先看一个工程目录,只选取了Lab1会用到的main,mapreduce package:

  技术分享      

  下面简要介绍一下MapReduce的编程模型(Programming Model)

  MapReduce起源于Google这篇闻名的Paper,用来简化大数据集的处理(Simplified Data Processing on Large Clusters),分为Map和Reduce两个过程:

  Map:每个Map都产生一个key/value pairs set

  Reduce:每个Reduce过程都将一些key/value pairs set中具有相同key的value做某种操作(对于Word Count,将value相加)

    下面通过经典的 Word Count来说明MapReduce的设计方式:

  Word Count 任务很简单,统计一份大文件(kjv12.txt)每个单词(Word)的频率(Count),kjv12.txt部分如下:

  技术分享

  Map&Reduce工作流程图如下:

  技术分享

  1. Init:确定Map,Reduce Worker的个数,分别表示为nMap,nReduce,这里取nMap=3,nReduce=2
  2. Split:将原始文件kjv12.txt分割(Split)nMap个(等大的)文件,记为kjv12.txt_0, kjv12.txt_1,kjv12.txt_2
  3. DoMap i:Map Func接收kjv12 i作为输入,生成一个<word, count> list,并生成nReduce个输出文件,采用word%nReduce决定<word,count>输出到哪个文件
  4. DoReduce i:Reduce Func接收具有相同二级后缀的文件(kjv12.txt_*_i),并将相同word的count做加和,输出到kjv12.txt_res_i
  5. Merge:将kiv12.txt_res_*作简单合并,生成最终文件mrtmp.kjv12.txt

  具体代码是这样的,全部代码在这里

  技术分享

  技术分享

  程序的正确性容易验证:

  1. 不遗漏(No Miss):这点是显而易见的
  2. 不重复(No Repeat):kjv12.txt_0,kjv12.txt_1都有"Google",那么都会输出到具有相同二级后缀的文件,即kjv12.txt_0/1_("Google"/nReduce)

                 最终输出到kjv12.txt_res_("Google"/nReduce),不会重复计算

  Lab1 Part1只是帮助了解MapDeduce的编程模型,是单机-单线程运行

  Lab1 Part2会通过单机-多线程协作(RPC&Go Channel)来模拟多节点分布式环境

 

[6.824: Distributed Systems] Lab1 Part1

原文:http://www.cnblogs.com/zjuwh/p/5001658.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!