1.SequenceFile用于合并大量小文件,CombineFileInputFormat把多个文件打包到一个split,来处理大量小文件。
2.避免切分:修改最小切片大小,达到需要处理的文件;或者使用FileInputFormat子类,并且覆盖isSplitable()方法。
3.处理xml文档:采用避免切片的方式。用StreamXmlRecordReader来进行处理。
hadoop汇总,布布扣,bubuko.com
hadoop汇总
原文:http://vokiy.blog.51cto.com/4886189/1379665