Hadoop产生原因

时间：2016-11-29 23:51:36 阅读：319 评论：0 收藏：0 [点我收藏+]

对于Hadoop产生的原因，我们从以下三个方面谈起：

传统大规模系统的问题

（1）传统大规模计算

1.传统计算受到处理器限制：相对较小的数据量；有很多复杂的处理。

2.早期的方案：更大的计算机，更快的处理器，更多的内存，但即使这样也不能满足

（2）分布式系统

1.更好的方案：使用更多的机器来处理单个作业

2.分布式系统遇到的问题：编程的复杂性（用来管理和处理数据的程序很复杂）；有限的带宽

3.数据瓶颈：传统系统中，数据存储在中央存储；数据在运行时拷贝到处理器；适合限量的数据

然而，现代系统有很多数据，我们需要寻求新的方法来处理这些数据：Hadoop就应运而生，引入了一个彻底的新方法就是分布式计算，当数据存储时分布数据，而且在数据所在的位置运行计算。

Hadoop自身优势

（1） Hadoop的源起：

1.思想起源：Google

2.Hadoop之父：Doug Cutting

3.Lucene->Nutch->Hadoop

4.实现云计算的事实标准开源软件

5.包含数十个具有强大生命力的子项目

6.已经能在上万节点上运行，处理数据量和排序时间不断打破世界纪录

（2） Hadoop核心设计

1.当数据加载的时候分片成块

2.Map任务通常作用于单个块

3.Master程序管理任务

（3） Hadoop核心概念

1.应用通过高级语言代码来写

2.节点之间尽可能少的通信

3.数据提前分布式存储

4.把计算放到数据所在节点运行

5.数据通过多副本存储来提供可靠性和高可用性

6.Hadoop是可扩展并且容错的

三．Hadoop适用背景

（1）大数据的处理模式：

主要的处理模式可以分为流处理（stream processing）和批处理（batch processing）：批处理是先存储后处理（store-process）；流处理则是直接处理（straight-through process）

（2）你可以用Hadoop做什么？

（3）数据从哪里来？

1.科学

医疗影像，传感器数据，基因测序，天气数据，卫星

2.工业

金融，制药，制造业，保险，网游，能源，零售数据

3.资产

销售数据，客户行为，产品数据库，账户数据等

4.系统数据

日志文件，健康和状态，活动信息流，网络消息，web分析，入侵检测和垃圾邮件过滤

（4）常见的Hadoop分析类型

ETL;文本挖掘;索引构建;图创建和分析；模式识别；协同过滤；预测模型；情感分析；风险评估

（5）使用Hadoop分析的好处

实现以前不可能或不现实的分析；更低的成本；更少的时间；更多的灵活性；近线性的扩展性

以上就是根据自己的学习以及实际经验给大家分享的Hadoop产生的原因，对于更多想要学习和了解大数据的同学来说，这是一个很好的开端；平常大家可以多关注一些大数据的资讯，多看一些大数据相关的书籍，我平常喜欢关注如大数据cn这些微信公众号，里面对于大数据的资讯介绍还是不错的，大家也可以看看。总之，希望我们每一个人都踏踏实实从基础做起，不断巩固提高，一定会取得进步的。

本文出自 “11872756” 博客，谢绝转载！

Hadoop产生原因

原文：http://11882756.blog.51cto.com/11872756/1877763

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)