首页 > 其他 > 详细

大数据学习笔记3 - 并行编程模型MapReduce

时间:2019-03-14 22:07:35      阅读:221      评论:0      收藏:0      [点我收藏+]

分布式并行编程用于解决大规模数据的高效处理问题。分布式程序运行在大规模计算机集群上,集群中计算机并行执行大规模数据处理任务,从而获得海量计算能力。

MapReduce是一种并行编程模型,用于大规模数据集的并行运算,将复杂的运行于大规模集群上的并行计算过程抽象到Map和Reduce两个函数。MapReduce采用“分而治之”的策略,将存储在分布式文件系统的大数据集切分成独立小数据块(即Split,分片),这些分片可以被多个Map任务并行处理。MapReduce强调“计算向数据靠拢”而非“数据向计算靠拢”,传统模式下,对数据进行处理时需要将待处理的数据集中到程序所在机器上(数据向计算靠拢),数据的移动需要-,MapReduce模型下,一般将

大数据学习笔记3 - 并行编程模型MapReduce

原文:https://www.cnblogs.com/Jing-Wang/p/10533708.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!