首页 > 其他 > 详细

Hadoop学习笔记(1)

时间:2019-07-16 01:21:06      阅读:112      评论:0      收藏:0      [点我收藏+]

大数据的特点:

1、Volume  大量

数据大量  个人硬盘TB级  大企业数据量接近EB级

2、Velocity  高速

效率决定一切(当然还有准确)

3、Variety  多样

结构化数据(数据库、文本)

非结构化数据(音频、视频)

4、Value  低价值密度

数据越多 价值密度越低

技术分享图片

hadoop的生态圈

 

hadoop的来源:

来自于Google个三篇论文(GFS、MapReduce、BigTable)衍生出HDFS、MR、Hbase

 

Hadoop三大发行版本:Apache Cloudera Hortonworks

新手选Apache入门

大型企业用Cloudera

第三个文档较好

 

Hadoop的优势

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4)高容错性:能够自动将失败的任务重新分配。

 

Hadoop的组成

MapReduce、Yarn、HDFS

1.HDFS:

NameNode:储存文件属性信息的元数据  是HDFS的老大管理其他的DataNode

DataNode:在本地文件系统存储文件块数据以及数据校验和

Secondary NameNode:辅助NameNode,是一段时间元数据的快照

2.YARN:

ResourceManager:是yarn的老大主要的是资源的分配合处理请求,资源调度分配

NodeManager:单个节点上的资源管理,处理来自RM上的命令处理ApplicationMaster的命令

ApplicationMaster:数据切分分配给内部任务

Container:封装了各种资源以及环境变量,启动命令等任务运行相关的信息

3.MApReduce:

Map:处理数据

Reduce:对Map阶段的结果汇总

 

Hadoop学习笔记(1)

原文:https://www.cnblogs.com/suyz/p/11192314.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!