Hadoop学习笔记（1）

时间：2019-07-16 01:21:06 阅读：121 评论：0 收藏：0 [点我收藏+]

大数据的特点：

1、Volume 大量

数据大量个人硬盘TB级大企业数据量接近EB级

2、Velocity 高速

效率决定一切（当然还有准确）

3、Variety 多样

结构化数据（数据库、文本）

非结构化数据（音频、视频）

4、Value 低价值密度

数据越多价值密度越低

技术分享图片

hadoop的生态圈

hadoop的来源：

来自于Google个三篇论文（GFS、MapReduce、BigTable）衍生出HDFS、MR、Hbase

Hadoop三大发行版本：Apache Cloudera Hortonworks

新手选Apache入门

大型企业用Cloudera

第三个文档较好

Hadoop的优势

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4）高容错性：能够自动将失败的任务重新分配。

Hadoop的组成

MapReduce、Yarn、HDFS

1.HDFS：

NameNode：储存文件属性信息的元数据是HDFS的老大管理其他的DataNode

DataNode：在本地文件系统存储文件块数据以及数据校验和

Secondary NameNode：辅助NameNode，是一段时间元数据的快照

2.YARN：

ResourceManager：是yarn的老大主要的是资源的分配合处理请求，资源调度分配

NodeManager：单个节点上的资源管理，处理来自RM上的命令处理ApplicationMaster的命令

ApplicationMaster：数据切分分配给内部任务

Container：封装了各种资源以及环境变量，启动命令等任务运行相关的信息

3.MApReduce：

Map：处理数据

Reduce：对Map阶段的结果汇总

Hadoop学习笔记（1）

原文：https://www.cnblogs.com/suyz/p/11192314.html

踩

(0)

评论一句话评论（0）

分享档案

更多>