4.高容错性。Hadoop 能够自动保存数据的多份副本, 并且能够自动将失败的任务重新分配。
现在的话Hadoop已经包含很多项目。不过核心内容是MapReduce和Hadoop分布式文件系统。这里spark的话实时性性能方面比hadoop高很多。这里我不多说什么。(http://www.zdnet.com/faster-more-capable-what-apache-spark-brings-to-hadoop-7000026149/可以看看spark与hadoop比较)
与Hadoop相关的Common,Avro,Chukwa,Hive,HBase等项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。
原文:http://blog.csdn.net/edagarli/article/details/26300277