首页 > 其他 > 详细

认识Hadoop

时间:2019-03-01 20:59:44      阅读:223      评论:0      收藏:0      [点我收藏+]

概述

开源、分布式存储、分布式计算

大数据生态体系

  •  特点:开源、社区活跃
  • 囊括了大数据处理的方方面面
  • 成熟的生态圈

技术分享图片

技术分享图片

推荐系统

 

技术分享图片

 

应用场景

  • 搭建大型数据仓库,PB级数据的存储、处理、分析、统计
  • 日志分析
  • 数据挖掘

核心组件

HDFS(分布式文件存储系统)

  • 特点:扩展性、容错性、海量数据存储
  • 将文件切分成指定大小(默认128M)的数据块并以多副本(默认3副本)的存储在多个机器上
  • 数据切分、多副本、容错等操作对用户是透明的

技术分享图片

架构
  • 1个master(NameNode/NN)带n个slave(datanode/DN)
  • 1个文件会被拆分成多个Block(blocksize=128M)
  • NN:
    • 负责客户端请求响应
    • 负责元数据(文件名称、副本系数、block存放的DN)管理
  • DN:
    • 存储用户的文件对应的数据块(block)
    • 定期向NN发送心跳信息,汇报本身及所有的block信息,健康状况

技术分享图片

hdfs副本策略

技术分享图片

Yarn(资源调度系统)

  • 特点:扩展性、容错性(任务失败重试)、多框架资源统一调度 (比如spark、hivesql、hbase、storm)

技术分享图片

  • yarn:Yet another resource negotiator
  • 负责整个集群资源的管理和调度

MapReduce(分布式计算框架)

  • 特点:扩展性、容错性、海量离线数据处理

技术分享图片

Hadoop的优势

高可靠性

  • 数据存储:数据块多副本
  • 数据计算:重新调度作业计算

扩展性

  • 存储/计算资源不够时,可以横向的线性扩展机器
  • 一个集群可以包含数以千计的节点

其他

  • 存储在廉价机器上,降低成本
  • 成熟的生态圈

Hadoop常用发行版及选型

  • Apache Hadoop(解决了单个框架的问题,联合使用时很多包冲突)
  • CDH:Cloudera Distributed Hadoop(60~70%)
  • HDP:Hortonworks Data PlatForm

认识Hadoop

原文:https://www.cnblogs.com/zxbdboke/p/10458615.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!