重点:
熟练掌握:HDFS命令操作 HDFS客户端操作 HDFS的数据流 (面试问的少,实际工作中用的多)
NameNode工作机制、DataNode工作机制(面试问得多,实际工作中用的少)
HDFS:是分布式文件管理系统的一种。
概念:HDFS是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
适合一次写入、多次读出的场景,且不支持修改。适用于做数据分析,不适合做网盘应用。
优点:1.高容错性:自动保存多个副本 某一副本丢失后,可以自动恢复
2.适合大数据处理
3.流式数据访问:一次写入,多次读出,不可修改,只能追加
4.可构建在廉价机器上,通过多副本机制,提高可靠性。
缺点:1.不适合低延时数据访问(比如毫秒级的存储数据)
2.无法高效的对大量小文件进行存储
3.并发写入、文件随机修改(一个文件只能有一个写,不允许多线程同时写;只能追加不能修改)
NameNode:目录、存放元数据
DataNode:存放数据
HDFS文件块大小:
默认大小:128M(hadoop2.x版本)
HDFS的块比磁盘的块大,目的是为了最小化寻址开销
寻址时间为传输时间的1%时,为最佳状态。如:寻址时间=10ms,传输时间=10ms/0.01=1000ms=1s
原文:https://www.cnblogs.com/lz95/p/10130445.html