首页 > 其他 > 详细

Hadoop在百度的应用

时间:2014-10-19 11:19:47      阅读:245      评论:0      收藏:0      [点我收藏+]

     百度作为全球最大的中文搜索引擎公司,提供基于搜索引擎的各种产品,包括以网络搜索为主的功能性搜索;以贴吧为主的社区搜索;针对区域、行业的垂直搜索、MP3音乐搜索,以及百科等,几乎覆盖了中文网络世界中所有的搜索需求。

    百度对海量数据处理的要求是比较高的,要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求如下图所示,这里就需要通过性能较好的云平台进行处理了,Hadoop就是很好的选择。

bubuko.com,布布扣

    在百度,Hadoop主要应用于以下几个方面:

  • 日志的存储和统计;
  • 网页数据的分析和挖掘;
  • 商业分析,如用户的行为和广告关注度等;
  • 在线数据的反馈,及时得到在线广告的点击情况;
  • 用户网页的聚类,分析用户的推荐度及用户之间的关联度。

     MapReduce主要是一种思想,不能解决所有领域内与计算有关的问题,百度的研究人员认为比较好的模型应该如下图所示,HDFS实现共享存储,一些计算使用MapReduce解决,一些计算使用MPI解决,而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据,所以在处理这类数据时就可以用MapReduce做一些过滤,得到基本的向量矩阵,然后通过MPI进一步处理后返回结果,只有整合技术才能更好地解决问题。

bubuko.com,布布扣

Hadoop在百度的应用

原文:http://www.cnblogs.com/luonet/p/4034383.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!