首页 > 其他 > 详细

Spark版本定制八:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

时间:2016-05-24 00:05:48      阅读:204      评论:0      收藏:0      [点我收藏+]

本期内容:

1、DStream与RDD关系彻底研究

2、Streaming中RDD的生成彻底研究

一、DStream与RDD关系彻底研究

课前思考:

RDD是怎么生成的?

RDD依靠什么生成?根据DStream来的

RDD生成的依据是什么?

Spark Streaming中RDD的执行是否和Spark Core中的RDD执行有所不同?

运行之后我们对RDD怎么处理?

ForEachDStream不一定会触发Job的执行,但是它一定会触发job的产生,和Job是否执行没有关系;

 

对于DStream类,源码中是这样解释的。

* DStreams internally is characterized by a few basic properties:
*  - A list of other DStreams that the DStream depends on
*  - A time interval at which the DStream generates an RDD
*  - A function that is used to generate an RDD after each time interval

大致意思是:

1.DStream依赖于其他DStream,除了第一个DStream,因为第一个DStream基于数据源产生,用于接收数据,所以无其他依赖;

2.基于DStream怎么产生RDD?每隔BatchDuration,DStream生成一个RDD;

3.每隔BatchDuration,DStream内部函数会生成RDD;

 

问:DStream到底是怎么产生RDD的?

 

 

 

二、Streaming中RDD的生成彻底研究

generatedRDDs是DStream的成员,说明每个DStream的实例中均有此成员,但是实质在运行的时候指抓住最后一个DStream的句柄。

 

特别感谢王家林老师的独具一格的讲解:

王家林老师名片:

中国Spark第一人

新浪微博:http://weibo.com/ilovepains

微信公众号:DT_Spark

博客:http://blog.sina.com.cn/ilovepains

QQ:1740415547

YY课堂:每天20:00现场授课频道68917580

Spark版本定制八:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

原文:http://www.cnblogs.com/game-bigdata/p/5521660.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!