首页 > 其他 > 详细

Spark开源学习模块

时间:2017-08-08 11:42:19      阅读:158      评论:0      收藏:0      [点我收藏+]

Spark开源的各模块组成结构:

1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖。子RDD对父RDD中的全部data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。
 
5. Operation——作用于RDD的各种操作分为transformation和action。
 
6. Job——作业,一个JOB包括多个RDD及作用于对应RDD上的各种operation。
 
7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph,有向无环图。RDD之间的依赖关系。


 
9. Caching Managenment——缓存管理。对RDD的中间计算结果进行缓存管理以加快总体的处理速度。


參考资料(reference)
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

Spark开源学习模块

原文:http://www.cnblogs.com/cynchanpin/p/7305841.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!