首页 > 其他 > 详细

Spark- Spark基本工作原理

时间:2017-10-21 10:42:20      阅读:52      评论:0      收藏:0      [点我收藏+]

标签:最大   取数   park   spa   移动   工作   区别   bsp   行处理   

Spark特点:

1.分布式

  spark读取数据时是把数据分布式存储到各个节点内存中

2.主要基于内存(少数情况基于磁盘,如shuffle阶段)

  所有计算操作,都是针对多个节点上内存的数据,进行并行操作的

3.迭代式计算

对分布式节点内存中的数据进行处理,处理后的数据可能会移动到其他节点的内存中,当需要用到某些数据时,从这些节点的内存中就能找到,迭代出来使用

Spark与MapReduce的区别

Spark与MapReduce最大的不同在于,迭代式计算模型:

MapReduce分为两个阶段,map和reduce,两个阶段完成就结束了,所以我们在一个job里能做的处理有限,只能在map和reduce里处理

Spark计算模型可以分为n个阶段,因为他是内存迭代式的,我们在处理完一个阶段以后,可以继续往下处理很多个阶段,而不只是两个阶段。所以,Spark相较于MapReduce来说,计算模型可以提供更强大的功能。 

 

Spark- Spark基本工作原理

标签:最大   取数   park   spa   移动   工作   区别   bsp   行处理   

原文:http://www.cnblogs.com/RzCong/p/7703591.html

(0)
(0)
   
举报
评论 一句话评论(0
0条  
登录后才能评论!
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号