自定义InputFormat 案例

时间：2020-09-04 18:29:19 阅读：46 评论：0 收藏：0 [点我收藏+]

无论是HDFS还是MapReduce在处理小文件时，都要消耗大量内存，效率低

一、回顾

1、HDFS

har，对外对应一个NameNode，对内对应多个文件

2、MapReduce

CombineTextInputFormat，分为虚拟存储过程和切片过程

虚拟存储过程和切片过程都要和最大值做比较

二、需求分析

1、需求

将多个小文件合并成一个SequencFile文件。

补充：SequenceFile文件是Hadoop用来存储二进制形式的key-value的文件格式，SequenceFile文件存储多个文件，存储格式为：

key：文件路径 + 文件名(Text)

value: 文件的具体内容(BytesWritable)

2、分析

a、继承FileInputFormat

b、

原文：https://www.cnblogs.com/wt7018/p/13615144.html

踩

(0)

评论一句话评论（0）

分享档案

更多>