首页 > 其他 > 详细

自定义InputFormat 案例

时间:2020-09-04 18:29:19      阅读:46      评论:0      收藏:0      [点我收藏+]

无论是HDFS还是MapReduce在处理小文件时,都要消耗大量内存,效率低

一、回顾

1、HDFS

har,对外对应一个NameNode,对内对应多个文件

2、MapReduce

CombineTextInputFormat,分为虚拟存储过程和切片过程

虚拟存储过程和切片过程都要和最大值做比较

二、需求分析

1、需求

将多个小文件合并成一个SequencFile文件。

补充:SequenceFile文件是Hadoop用来存储二进制形式的key-value的文件格式,SequenceFile文件存储多个文件,存储格式为:

key:文件路径 + 文件名(Text)

value: 文件的具体内容(BytesWritable)

2、分析

a、继承FileInputFormat

b、

自定义InputFormat 案例

原文:https://www.cnblogs.com/wt7018/p/13615144.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!