首页 > 其他 > 详细

学习Hadoop笔记

时间:2015-10-28 07:12:01      阅读:280      评论:0      收藏:0      [点我收藏+]

                            学习笔记(Hadoop分布式文件系统)

  1. Hadoop是以流式数据访问模式存储超大文件。一次写入,多次读取。

  2. 每个文件,目录,数据块的存储信息需要存放在内存中,大小根据经验约为150字节。所以对于硬件内存还是有极限的。

  3. HDFS中的块跟磁盘块概念相似,但是HDFS的块大小默认64MB,为什么如此之大,为了最小化寻址开销。

  4. HDFS集群有两类节点,并以管理者-工作者模式运行,一个是namenode(管理者),和多个datanode(工作者)

  5. namenode是非常重要的角色,如果namenode的服务的机器毁坏文件系统文件将丢失,所以对namenode的容错很重要。所以hadoop提供了两种容错解决方案,一个是备份那些组成文件系统元数据持久状态的文件。一般做法是持久状态写入磁盘的同时写入一个远程的网络文件系统。另一个解决方案备份一个namenode,因为是保存的是主节点的后状态所以肯定可能造成数据部分丢失。

  6. 课外知识,(Thrift)一个软件框架,用来进行可扩展且跨语言的服务的开发。提供各个语言间的进程间调用。是一种服务,提供各种语言的远程过程调用接口。

  7. 常用类:FileSystem,FSDataInputStream,FSDataOutputStream,FileStatus等类。

  8. HDFS提供一个方法来强制所有的缓存与数据节点同步,即对FSDataOutputStream调用sync()方法。

  9. 通过distcp并行复制,distcp的典型应用是在两个HDFS集群之间传输数据。

学习Hadoop笔记

原文:http://lidongcheng.blog.51cto.com/2036331/1706923

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!