无论是HDFS还是MapReduce在处理小文件时,都要消耗大量内存,效率低
一、回顾
1、HDFS
har,对外对应一个NameNode,对内对应多个文件
2、MapReduce
CombineTextInputFormat,分为虚拟存储过程和切片过程
虚拟存储过程和切片过程都要和最大值做比较
二、需求分析
1、需求
将多个小文件合并成一个SequencFile文件。
补充:SequenceFile文件是Hadoop用来存储二进制形式的key-value的文件格式,SequenceFile文件存储多个文件,存储格式为:
key:文件路径 + 文件名(Text)
value: 文件的具体内容(BytesWritable)
2、分析
a、继承FileInputFormat
b、
原文:https://www.cnblogs.com/wt7018/p/13615144.html