Hadoop I/O

时间：2016-03-04 20:46:27 阅读：274 评论：0 收藏：0 [点我收藏+]

Hadoop配备了一套的基本数据I/O操作，例如数据的压缩，数据完成行。但由于需要考虑大数据的问题，hadoop也自己开发了例如序列化框架，在磁盘的数据结构
数据完整性，通常使用计算一个checksum,在原始数据和之后的数据传输中，通常使用CRC-32,HDFS使用更高效的方法CRC-32C
在hdfs的数完整性(Data Integrity)中，每512个字节都会进行checksum，一个CRC－32C占用4个字节，因此仅仅少于百分1的占用。
Datanodes负责检验数据checksum，在他们存储数据前。DataNodes维持一个持久话的检验和日志。
LocalFileSystem当你创建一个文件filename时，将会默认的建一个隐藏文件.filename.crc在相同的目录下，包含这个文件每个块的checksums，默认是512字节。chunk的size也会作为元数据记录在这个文件中，当读取文件被读取时，将会检验checksum，如果不一致，将会抛出一个checksumexception。RawLocalFileSystem可以关闭检验和，使用ChecksumFileSystem可以获取文件的检验和
压缩：文件的压缩主要有两大优点，节约空间，加快传输速度。所有的压缩方法都是在空间和时间的权衡，快速的解压和压缩方法，往往会导致空间的变大。使用压缩工具－1表示速度最快，－9表示空间最优。
.gzip是时间和空间的一种平均化，bzip2压缩的更好，但时间长。bzip2的解压速度比他的压缩速度快，但仍然慢于其他速度。lzo压缩速度特别快，但空间就占用的比较大了
在hadoop的压缩中，看到了平常的解决方式，和工厂设计模式，池设计模式，这些有时间可以再去看看。
书中建议把对record的压缩，改成对block的压缩。为什么呢?

技术分享

Hadoop I/O

原文：http://www.cnblogs.com/dalu610/p/5243177.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)