首页 > 其他 > 详细

《Hadoop权威指南 第4版》 - 第一章:初识Hadoop

时间:2019-12-31 19:23:26      阅读:71      评论:0      收藏:0      [点我收藏+]

1. HDFS是Hadoop的文件管理体系, 全称为Hadoop Distribute FileSystem

2. MapReduce适用于处理整个数据集或者大多数数据集

MapReduce的优势

  • 离线计算, 等待较长时间
  • 一个基本的批处理系统

3. YARN (Yet another resource negotiator) 是Hadoop的新的处理模型,集群资源管理系统

作用

  • 允许任何一个分布式程序基于Hadoop集群的数据来运行
  • 基于Hadoop2 以上版本

4. 更多的协作模式

举例

  • 交互式SQL
  • 迭代处理
  • 流系统,如Spark Streaming运行实时/分布式计算,并向Hadoop或者外界发布结果
  • 搜索引擎,如solr 底层可以使用hdfs的文件系统

5. 相较于其他系统的优势

比RDS的优势:

  • 海量数据下,可以大幅降低磁盘寻址的时间;
  • 但仅适用于处理整个数据集,Hadoop采用流数据的读取模式,仅取决于传输速率
    技术分享图片
    ** 可以看出Hadoop体系更擅长炒大锅饭,味道(精度)可能不是很高;mysql之类的RDS更擅长炒小菜,费时,味道可以。 **
  • 可以实现网格计算、志愿计算

《Hadoop权威指南 第4版》 - 第一章:初识Hadoop

原文:https://www.cnblogs.com/zhazhaacmer/p/12125726.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!