首页 > 其他 > 详细

Hadoop入门

时间：2020-07-03 14:00:08 阅读：64 评论：0 收藏：0 [点我收藏+]

1T 文件，数字，行存储 => 排序

传统方法

第一种方法：判断每一行的所属范围[0,100][101,200],取出一小部分数据[0,100]排序，放入文件
第二种方法：分成N多个文件，文件内部有序，文件之间归并排序
瓶颈：单机处理文件太大

大数据采用多台服务器运算

化整为零，并发执行=>Hadoop
每个服务器都有自己的数据。现在要把相同的数据放在一起，涉及不同服务器之间的数据迁移，成本较高。
数据迁移=>计算向着数据移动 => MR
文件的切割管理规范：自己知道文件块怎么划分的=>HDFS

HDFS存储模型（字节）

文件线性分割成块Block，偏移量offset
一个汉字两个字节，这俩字节被分割开了怎么办？？？？？？？？？？？？？？？？？？？？？？
分散存储在集群节点中
Block可以设置副本数，副本无序分散在不同节点中

架构模型(主从)

文件元数据MetaData（blockSize offset 副本）；文件数据（数据本身）
主NameNode节点保存文件元数据：单节点
从DataNode节点保存Block数据：多节点
主从保持心跳
HdfsClient与NameNode和DataNode交互。大数据架构基本都是B/S
DataNode利用服务器本地文件系统存储数据块

持久化

技术分享图片

NameNode

基于内存存储：不会和磁盘发生交换
持久化(单向内存溢写)
服务器重启的时候用持久化数据
block位置信息持久化不存。block所在节点挂了，这时候利用持久化数据就会出问题，所以还是通过心跳机制靠谱
持久化方式一： metadata存储到磁盘文件名为“fsimage”（序列化与反序列化方式）。序列化慢恢复块
持久化方式二： edits记录对metadata的操作日志…>Redis。持久化快恢复慢
两者合并：https://www.cnblogs.com/Coeus-P/p/13229410.html

SecondaryNameNode

它不是NN的备份（但可以做备份），它的主要工作是帮助NN合并edits log，减少NN启动时间

原文：https://www.cnblogs.com/Coeus-P/p/13229517.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！