wordCount程序中MapReduce工作过程分析

时间：2014-02-21 00:14:24 阅读：397 评论：0 收藏：0 [点我收藏+]

　　Map处理的是一个纯文本。Mapper处理的数据是由InputFormat分解过的数据集，其中InputFormat的作用是将数据集切割成小数据集InputSplit，每一个InputSplit将由一个Mapper处理，此外，InputFormat中还提供了一个RecordReader的实现，并将一个InputSplit解析成<key,value>对提供给map函数。InputFormat的默认值是TextInputFormat，它针对文本文件，按行将文本切割成InputSplit，并用LineRecordReader将InputSplit解析成<key,value>对，key是行在文本中的位置，value是文本中的一行。

　　Map的结果会通过partion分发到Reducer，中间涉及到copy和merge的过程，merge的时候，具有相同key的键/值对则送到同一个Reducer上。Reducer是所有用户定制Reducer类的基础，它的输入是key和这个key对应的所有的value的一个迭代器，同时还有Reducer的上下文。Reducer做完Reduce操作后，将通过OutputFormat输出，最终由Reducer.Context的write方法输出到文件中。

　　下面贴一个句柄使用的例子，在很多字符串处理中都有使用，具体的是将Hadoop自身的基础数据类型的Text转化成String，再用句柄来将句子按照定义的分割符分开，获得的是标记间的多个句柄。

String s = new String("The Java platform is the ideal platform for network computing");
StringTokenizer st = new StringTokenizer(s);
System.out.println( "Token Total: " + st.countTokens() );
while( st.hasMoreElements() ){
System.out.println( st.nextToken() );
}

另外如果输入的字符串带有一定的结构，可以根据相应结构进行分割、提取、计算等，具体情况以来自己想实现的功能。

wordCount程序中MapReduce工作过程分析

原文：http://www.cnblogs.com/wzyj/p/3557444.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)