首页 > 其他 > 详细

hadoop archive的使用

时间:2019-09-11 00:30:48      阅读:208      评论:0      收藏:0      [点我收藏+]

hadoop archive的使用

  • 产生背景:hdfs架构设计不利于小文件存储 文件不管多小 都需要元数据描述记录 如果集群小文件过多

    可能磁盘使用情况很低 但是内存使用确很高 俗称 小文件吃内存

  • 档案的功能:通过mr程序 把多个小文件 合并成一个档案文件
  • archive的使用
    • 档案的创建
      hadoop archive -archiveName test.har -p /input /outputdir

      档案建立成功 为了优化小文件吃内存的情况 可以把小文件删除
      hadoop fs -rm -r /input
    • 档案的查看
      查看建立档案之后的样子
      hadoop fs -ls hdfs://node-1:8020/outputdir/test.har

      查看建立档案之前的样子
      hadoop fs -ls har://hdfs-node-1:8020/outputdir/test.har
      可以查询出该档案是由哪些小文件合并而来
    • 档案的提取
      串行提取
      hadoop fs -cp har:///outputdir/test.har hdfs://node-1:8020/input

      hadoop distcp har:///outputdir/test.har hdfs://node-1:8020/input

 



hadoop archive的使用

原文:https://www.cnblogs.com/TiePiHeTao/p/2e6b3d195550bb95c733891ca6b437d7.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!