Spark- Spark基本工作原理

时间：2017-10-21 10:42:20 阅读：419 评论：0 收藏：0 [点我收藏+]

Spark特点：

1.分布式

　　spark读取数据时是把数据分布式存储到各个节点内存中

2.主要基于内存（少数情况基于磁盘，如shuffle阶段）

　　所有计算操作，都是针对多个节点上内存的数据，进行并行操作的

3.迭代式计算

对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当需要用到某些数据时，从这些节点的内存中就能找到，迭代出来使用

Spark与MapReduce最大的不同在于，迭代式计算模型：

MapReduce分为两个阶段，map和reduce，两个阶段完成就结束了，所以我们在一个job里能做的处理有限，只能在map和reduce里处理

Spark计算模型可以分为n个阶段，因为他是内存迭代式的，我们在处理完一个阶段以后，可以继续往下处理很多个阶段，而不只是两个阶段。所以，Spark相较于MapReduce来说，计算模型可以提供更强大的功能。

原文：http://www.cnblogs.com/RzCong/p/7703591.html

踩

(0)

评论一句话评论（0）

分享档案

更多>