Hadoop 文件的数量怎么比block的数量多？

时间：2015-12-06 19:03:36 阅读：365 评论：0 收藏：0 [点我收藏+]

Total files:    23
Total symlinks:        0
Total blocks (validated):    22 (avg. block size 117723 B)
Minimally replicated blocks:    22 (100.0 %)
Over-replicated blocks:    0 (0.0 %)
Under-replicated blocks:    0 (0.0 %)
Mis-replicated blocks:        0 (0.0 %)
Default replication factor:    2
Average block replication:    2.0
Corrupt blocks:        0
Missing replicas:        0 (0.0 %)
Number of data-nodes:        2
Number of racks:        1
FSCK ended at Sun Dec 06 13:17:09 CST 2015 in 20 milliseconds

有一次，同事问我说，文件数怎么比block数目还要多，这正常吗？
当时查看的情况是文件数一千多万，block的总数不到一千万。
我当时也没想出原因。现在知道了，并不是我们想的，block的数量应该是文件的数量* 复本数
这里fsck 给出的数据是这样理解的，block数量不是总的复本数，文件按block大小划分的数量。
而且我们在执行mapreduce的时候，会生成sucess之类的标识文件，这样的文件是空的，不算block
所以文件的数量会比block数量多，这是正常的。

原文：http://www.cnblogs.com/huaxiaoyao/p/5023956.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)