首页 > 其他 > 详细

hadoop 小文件 挂载

时间:2017-10-26 20:27:09      阅读:262      评论:0      收藏:0      [点我收藏+]

 

hadoop不支持传统文件系统的挂载,使得流式数据装进hadoop变得复杂。

hadoo中,文件只是目录项存在;在文件关闭前,其长度一直显示为0:如果在一段时间内将数据写到文件却没有将其关闭,则若网络中断后,则我们得到的仅仅是一个空白文件;故:最好编写小文件,这样能尽快将其关闭?

【mapper 单个文件块 1:1】

由于hdfs的元数据保存在NameNode的内存中,因此创建的文件越多,所需的RAM就越多。从MapReduce角度看,小文件会导致效率低下。通常情况下,,每个Mapper都会被分配单个文件块作为

输入(除非使用了某些压缩编码)。如果过多的小文件,那么与待处理的数据相比,与待处理的数据相比,启动工作进程的代价就过高。这种碎片会导致更多的Mapper任务,使得总的Job运行时间增加。

hadoop 小文件 挂载

原文:http://www.cnblogs.com/yuanjiangw/p/7738911.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!