首页 > Windows开发 > 详细

Spark API编程动手实战-05-spark文件操作和debug

时间:2015-02-03 02:05:02      阅读:323      评论:0      收藏:0      [点我收藏+]

这次 我们以指定executor-memory参数的方式来启动spark-shell:

bubuko.com,布布扣

bubuko.com,布布扣

启动成功了

?

在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面:

bubuko.com,布布扣

?

从hdfs上读取文件:

bubuko.com,布布扣

?

在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:

bubuko.com,布布扣

可以看出MappedRDD是从HadoopRDD转换而来的

再看下textFile的源代码:

bubuko.com,布布扣

?

hadoopFile这个方法返回的是一个HadoopRDD,源码如下所示:

bubuko.com,布布扣

bubuko.com,布布扣

而map方法产生的是一个MappedRDD:

bubuko.com,布布扣

?

下面进行一个简单的wordcount操作:

bubuko.com,布布扣

执行结果:

bubuko.com,布布扣

再次使用toDebugString,查看下依赖关系:

bubuko.com,布布扣

HadoopRDD -> MappedRDD -> FlatMappedRDD -> ?MappedRDD -> ShuffledRDD?

Spark API编程动手实战-05-spark文件操作和debug

原文:http://stark-summer.iteye.com/blog/2182748

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!