首页 > 其他 > 详细

hdfs笔记

时间:2018-12-17 12:20:25      阅读:133      评论:0      收藏:0      [点我收藏+]

重点:

熟练掌握:HDFS命令操作  HDFS客户端操作  HDFS的数据流  (面试问的少,实际工作中用的多)

     NameNode工作机制、DataNode工作机制(面试问得多,实际工作中用的少)

HDFS:是分布式文件管理系统的一种。

概念:HDFS是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

   适合一次写入、多次读出的场景,且不支持修改。适用于做数据分析,不适合做网盘应用。

优点:1.高容错性:自动保存多个副本  某一副本丢失后,可以自动恢复

   2.适合大数据处理

   3.流式数据访问:一次写入,多次读出,不可修改,只能追加

   4.可构建在廉价机器上,通过多副本机制,提高可靠性。

缺点:1.不适合低延时数据访问(比如毫秒级的存储数据)

   2.无法高效的对大量小文件进行存储

   3.并发写入、文件随机修改(一个文件只能有一个写,不允许多线程同时写;只能追加不能修改)

  

NameNode:目录、存放元数据

DataNode:存放数据
  

HDFS文件块大小:

  默认大小:128M(hadoop2.x版本)

  HDFS的块比磁盘的块大,目的是为了最小化寻址开销

寻址时间为传输时间的1%时,为最佳状态。如:寻址时间=10ms,传输时间=10ms/0.01=1000ms=1s

 

hdfs笔记

原文:https://www.cnblogs.com/lz95/p/10130445.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!