MapReduce 是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。适用于解决需要以批处理方式分析整个数据集的问题,建立索引的数据库系统能够对小规模数据的低延迟数据检索和快速更新。适合一次写入、多次读取的应用;关系型数据库更适合持续更新的数据集。P9有关系型数据库和MapReduce的比较。
MapReduce任务分为map阶段和reduce阶段进行处理,在P23。
HBase是一种使用HDFS做底层存储的减值存储模型,提供在线访问。HBase不仅提供对单行的在线读写访问,还提供对数据块读写的批操作。
HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。为高数据吞吐量应用优化的,可能会以提高时间延迟为代价。对于低延迟的访问需求,可以考虑HBase。
原文:https://www.cnblogs.com/yzhnm/p/12193053.html