1. HDFS是Hadoop的文件管理体系, 全称为Hadoop Distribute FileSystem
2. MapReduce适用于处理整个数据集或者大多数数据集
MapReduce的优势
3. YARN (Yet another resource negotiator) 是Hadoop的新的处理模型,集群资源管理系统
作用
- 允许任何一个分布式程序基于Hadoop集群的数据来运行
- 基于Hadoop2 以上版本
4. 更多的协作模式
举例
- 交互式SQL
- 迭代处理
- 流系统,如Spark Streaming运行实时/分布式计算,并向Hadoop或者外界发布结果
- 搜索引擎,如solr 底层可以使用hdfs的文件系统
5. 相较于其他系统的优势
比RDS的优势:
- 海量数据下,可以大幅降低磁盘寻址的时间;
- 但仅适用于处理整个数据集,Hadoop采用流数据的读取模式,仅取决于传输速率

** 可以看出Hadoop体系更擅长炒大锅饭,味道(精度)可能不是很高;mysql之类的RDS更擅长炒小菜,费时,味道可以。 **
- 可以实现网格计算、志愿计算
《Hadoop权威指南 第4版》 - 第一章:初识Hadoop
原文:https://www.cnblogs.com/zhazhaacmer/p/12125726.html