Hadoop是什么
- Hadoop是一个由Apache 基金会所开发的 分布式系统基础架构。
- 主要解决,海量数据的存储和海量数据的分析计算问题。
- 广义上来说,Hadoop通常是指一个更广泛的概念 ———Hadoop 生态圈
存储数据困难,检索熟读慢:
01年:
Doug Cutting 基于 谷歌三篇论文 解决这些问题的方法: 微型版 Nutch。
03-04年
GFS ———> HDFS
MapReduce———> MR
BigTable———> Hbase
使Nutch性能飙升
05:正式引入 Apache 基金会。
06:MapReduce 和 NDFS (Nutch Distributed File System) 分别纳入Hadoop中,Hadoop正式诞生,大数据时代来临。
Hadoop 三大发行版本
Apache、Cloudera、Hortonworks
Apache
|
版本最原始(最基础)的版本,对于入门学习最好
|
Cloudera
|
内部集成了很多大数据框架。(CDH)
|
Hortonworks
|
文档较好。(HDP)
|
- 1. Apache Hadoop
- 2. Cloudera Hadoop
- 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
- 下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
- Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support
- CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强。Cloudera 的标价 每年每个节点 10000美元。
- Cloudera Manager 是 集群的软件分布及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。
- 3. Hortonworks Hadoop
- 官网地址:https://hortonworks.com/products/data-center/hdp/
- 下载地址:https://hortonworks.com/downloads/#data-platform
- Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
- Hortonworks目前已经被Cloudera公司收购。
Hadoop 优势
- 高可靠性:Hadoop 底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
- 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
- 高效性:在MapReduce 的思想下,Hadoop是并行工作的,以加快任务处理速度。
- 高容错性:能够自动将失败的任务重新分配。
Hadoop 组成 (面试重点)
Hadoop1.x
|
Hadoop2.x
|
MapReduce
(计算+资源调度)
|
MapReduce
(计算)
|
|
Yarn(资源调度)
|
HDFS(数据存储)
|
HDFS(数据存储)
|
Common(辅助工具)
|
Common(辅助工具)
|
- 在 Hadoop1.x 时代,Hadoop 中的 MapReduce 同时处理业务逻辑运算 和 资源的调度,耦合性较大。
- 在Hadoop2.x 时代, 增加了Yarn 。 Yarn 只负责资源的调度,MapReduce只负责运算
初识Hadoop
原文:https://www.cnblogs.com/TsundereCat/p/13950152.html