对于每一个Map,都有一个内存buffer用来缓存中间结果,这不仅可以缓存,而且还可以用来排序,被称为MapOutputBuffer, 设置这个buffer大小的配置是
io.sort.mb
默认值是100MB.
一般当buffer被使用到一定比例,就会将Map的中间结果往磁盘上写,这个比例的配置是:
io.sort.spill.percent
默认值是80%或者0.8.
在内存中排序缓存的过程叫做sort,而当超过上面的比例在磁盘上写入中间结果的过程称之为spill.
如果能够追踪到sort和spill的状态,就可以通过调整上面两个参数对Map进行优化。
Map的输出结果,最后会变成多个spill文件写入到磁盘上,需要将它们合并成一个文件,这个阶段称作merge.
每次并行merge多少个spill文件,有一个配置参数:io.sort.factor。
默认为10, 如果文件很多,影响到了merge阶段完成的速度,可以适当调大。
设置mapred.output.compress为true或者false,可以控制map的输出结果文件变为压缩或者不压缩。
同时可以指定压缩格式,用参数mapred.output.compression.codec,可选值为:
zipCodec,LzoCodec,BZip2Codec,LzmaCodec
压缩格式的选择也是在压缩时间,CPU利用率和磁盘空间三者间做平衡。
其他参数参考官方文档:
https://hadoop.apache.org/docs/r1.0.4/mapred-default.html
原文:http://blog.csdn.net/csfreebird/article/details/39760959