首页 > 其他 > 详细

初识Hadoop

时间:2020-11-09 21:31:30      阅读:24      评论:0      收藏:0      [点我收藏+]

 Hadoop是什么

  1. Hadoop是一个由Apache 基金会所开发的 分布式系统基础架构
  2. 主要解决,海量数据的存储和海量数据的分析计算问题。
  3. 广义上来说,Hadoop通常是指一个更广泛的概念 ———Hadoop 生态圈

 

 存储数据困难,检索熟读慢:

01年:

Doug Cutting  基于 谷歌三篇论文 解决这些问题的方法: 微型版 Nutch。

 

03-04

GFS ———> HDFS

MapReduce———> MR

BigTable———> Hbase

使Nutch性能飙升

05正式引入 Apache 基金会。

06:MapReduce 和 NDFS (Nutch Distributed File System) 分别纳入Hadoop中,Hadoop正式诞生,大数据时代来临。

 

Hadoop 三大发行版本

ApacheClouderaHortonworks

 

Apache

版本最原始(最基础)的版本,对于入门学习最好

Cloudera

内部集成了很多大数据框架。(CDH

Hortonworks

文档较好。(HDP

  1. 1.   Apache Hadoop
  1. 2.     Cloudera Hadoop
  • 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
  • 下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
  • Cloudera产品主要为CDHCloudera ManagerCloudera Support
  •  CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强。Cloudera 的标价 每年每个节点 10000美元。
  •  Cloudera Manager 是 集群的软件分布及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。
  1. 3.   Hortonworks Hadoop
  • 官网地址:https://hortonworks.com/products/data-center/hdp/
  • 下载地址:https://hortonworks.com/downloads/#data-platform
  • Hortonworks的主打产品是Hortonworks Data PlatformHDP,也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
  • Hortonworks目前已经被Cloudera公司收购。

 

 

 

 Hadoop 优势

  1. 高可靠性:Hadoop 底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
  2. 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
  3. 高效性:在MapReduce 的思想下,Hadoop是并行工作的,以加快任务处理速度。
  4. 高容错性:能够自动将失败的任务重新分配。

 

 Hadoop 组成 (面试重点

       Hadoop1.x

     Hadoop2.x

       MapReduce

  (计算+资源调度)

      MapReduce

    (计算)

      

   Yarn(资源调度)

   HDFS(数据存储)

  HDFS(数据存储)

Common(辅助工具)

Common(辅助工具)

 

  • 在 Hadoop1.x 时代,Hadoop 中的 MapReduce 同时处理业务逻辑运算 和 资源的调度,耦合性较大。
  • 在Hadoop2.x 时代, 增加了Yarn 。 Yarn 只负责资源的调度,MapReduce只负责运算

 

初识Hadoop

原文:https://www.cnblogs.com/TsundereCat/p/13950152.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!