hdfs笔记

时间：2018-12-17 12:20:25 阅读：133 评论：0 收藏：0 [点我收藏+]

重点：

熟练掌握：HDFS命令操作　　HDFS客户端操作　　HDFS的数据流　　（面试问的少，实际工作中用的多）

　　　　　NameNode工作机制、DataNode工作机制（面试问得多，实际工作中用的少）

HDFS:是分布式文件管理系统的一种。

概念：HDFS是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

　　　适合一次写入、多次读出的场景，且不支持修改。适用于做数据分析，不适合做网盘应用。

优点：1.高容错性：自动保存多个副本　　某一副本丢失后，可以自动恢复

　　　2.适合大数据处理

　　　3.流式数据访问：一次写入，多次读出，不可修改，只能追加

　　　4.可构建在廉价机器上，通过多副本机制，提高可靠性。

缺点：1.不适合低延时数据访问（比如毫秒级的存储数据）

　　　2.无法高效的对大量小文件进行存储

　　　3.并发写入、文件随机修改（一个文件只能有一个写，不允许多线程同时写；只能追加不能修改）

NameNode：目录、存放元数据

DataNode：存放数据
　　

HDFS文件块大小：

　　默认大小：128M（hadoop2.x版本）

　　HDFS的块比磁盘的块大，目的是为了最小化寻址开销

寻址时间为传输时间的1%时，为最佳状态。如：寻址时间=10ms，传输时间=10ms/0.01=1000ms=1s

原文：https://www.cnblogs.com/lz95/p/10130445.html

踩

(0)

评论一句话评论（0）

分享档案

更多>