首页 > 其他 > 详细

Spark开源学习模块

时间:2014-06-03 04:05:56      阅读:346      评论:0      收藏:0      [点我收藏+]

Spark开源的各模块组成结构:

1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。
 
5. Operation——作用于RDD的各种操作分为transformation和action。
 
6. Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
 
7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph,有向无环图,RDD之间的依赖关系。
 
9. Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整体的处理速度。


参考资料(reference)
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

Spark开源学习模块,布布扣,bubuko.com

Spark开源学习模块

原文:http://blog.csdn.net/ejinxian/article/details/27582463

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!