首页 > 编程语言 > 详细

大数据笔记-基于mapreduce的并行算法

时间:2018-12-13 18:11:37      阅读:223      评论:0      收藏:0      [点我收藏+]

7.1 mapreduce

技术分享图片

技术分享图片

 

技术分享图片

mapreduce编程:

技术分享图片

技术分享图片

 

同步工具:

技术分享图片

 

实现时需要注意的地方:

技术分享图片

 

本地聚合的重要性:

技术分享图片

 

字数统计

技术分享图片

 

map进化1:引入数组H(仍然需要combiner)

技术分享图片

 

 map进化2:把数组H变为全局变量,map结束后再将H输出

技术分享图片

(in-mapper的实现)本地聚合的设计模式:

将combiner的功能集成到mapper中(速度更快,in-mapper是内存上的操作->需要内存管理)

技术分享图片

 

计算平均数

combiner的设计:

技术分享图片

example:

map version1:(此时reducer不能代替combiner)

技术分享图片

 

version 2:(存在的问题:mapper的输出不是reducer的输入->影响了程序的正确性)

技术分享图片

 

 version 3:正确版本

技术分享图片

 

in-mapper版本:(此时不需要combiner,可以减少通信量)

技术分享图片

 

单词共现矩阵的计算

技术分享图片

技术分享图片

技术分享图片

方法1词对法

技术分享图片

技术分享图片

存在的问题:

技术分享图片

估计相对频率:

技术分享图片

 技术分享图片

同步的实现:将同步变成一个排序问题

技术分享图片

 

方法2条纹法

技术分享图片

技术分享图片

存在的问题:

技术分享图片

估计相对频率:

技术分享图片

同步的实现:构造数据结构使部分结果聚集到一起

 技术分享图片

再现概括总结:同步工具

技术分享图片

tradeoff:

技术分享图片

 

大数据笔记-基于mapreduce的并行算法

原文:https://www.cnblogs.com/cellphone7/p/10112328.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!