hadoop archive的使用

时间：2019-09-11 00:30:48 阅读：209 评论：0 收藏：0 [点我收藏+]

hadoop archive的使用

产生背景：hdfs架构设计不利于小文件存储文件不管多小都需要元数据描述记录如果集群小文件过多

可能磁盘使用情况很低但是内存使用确很高俗称小文件吃内存
档案的功能：通过mr程序把多个小文件合并成一个档案文件

archive的使用

档案的创建

hadoop archive -archiveName test.har -p /input /outputdir

档案建立成功 为了优化小文件吃内存的情况 可以把小文件删除 
hadoop fs -rm -r /input

档案的查看

查看建立档案之后的样子
hadoop fs -ls hdfs://node-1:8020/outputdir/test.har

查看建立档案之前的样子
hadoop fs -ls har://hdfs-node-1:8020/outputdir/test.har
可以查询出该档案是由哪些小文件合并而来

档案的提取

串行提取
hadoop fs -cp har:///outputdir/test.har hdfs://node-1:8020/input

hadoop distcp har:///outputdir/test.har hdfs://node-1:8020/input

hadoop archive的使用

原文：https://www.cnblogs.com/TiePiHeTao/p/2e6b3d195550bb95c733891ca6b437d7.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)