首页 > 其他 > 详细

Hadoop初识

时间:2019-07-13 12:53:02      阅读:78      评论:0      收藏:0      [点我收藏+]

Hadoop的思想之源:Google(第一个遇到大量数据计算问题的公司)

  • Openstack:  NASA

面对的数据和计算难题

  • 大量的网页怎么存储
  •  搜索算法(倒排索引的计算)

关键技术和思想(Google 三大理论)

  • GFS
  • Map-Reduce
  • Bigtable

Hadoop创始人介绍

  • Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目(之前已经开始实施),目前在Cloudera 公司从事架构工作

  技术分享图片

Hadoop简介

  • 名字来源于Doug Cutting儿子的玩具大象。
  •  2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch
  •  Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目
  • Hadoop官网:http://hadoop.apache.org
  • 分布式存储系统HDFS (Hadoop Distributed File System )POSIX
    • 分布式存储系统
    •  提供了 高可靠性、高扩展性和高吞吐率的数据存储服务
  • 分布式计算框架MapReduce
    • 分布式计算框架(计算向数据移动)
    • 具有 易于编程、高容错性和高扩展性等优点。
  • 分布式资源管理框架YARN(Yet Another Resource Management)
    • 负责集群资源的管理和调度
  • 版本:1.x,2.x,3.x

Hadoop生态圈图

  技术分享图片

 

技术分享图片

 

Hadoop生态圈组件

  • HDFS:Hadoop的分布式文件存储系统。
  • MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型。
  • Hive:基于Hadoop的类SQL数据仓库工具
  • Hbase:基于Hadoop的列式分布式NoSQL数据库
  • ZooKeeper:分布式协调服务组件
  • Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库
  • Oozie/Azkaban:工作流调度引擎
  • Sqoop:数据迁入迁出工具
  • Flume:日志采集工具

Hadoop初识

原文:https://www.cnblogs.com/dragon-123/p/11180172.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!