Spark API编程动手实战-05-spark文件操作和debug

时间：2015-02-03 02:05:02 阅读：324 评论：0 收藏：0 [点我收藏+]

这次我们以指定executor-memory参数的方式来启动spark-shell：

bubuko.com,布布扣

启动成功了

在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小，启动成功后参看web页面：

bubuko.com,布布扣

从hdfs上读取文件：

bubuko.com,布布扣

在命令行中返回的MappedRDD，使用toDebugString，可以查看其lineage的关系：

bubuko.com,布布扣

可以看出MappedRDD是从HadoopRDD转换而来的

再看下textFile的源代码：

bubuko.com,布布扣

hadoopFile这个方法返回的是一个HadoopRDD，源码如下所示：

bubuko.com,布布扣

而map方法产生的是一个MappedRDD：

bubuko.com,布布扣

下面进行一个简单的wordcount操作：

bubuko.com,布布扣

执行结果：

bubuko.com,布布扣

再次使用toDebugString，查看下依赖关系：

bubuko.com,布布扣

HadoopRDD -> MappedRDD -> FlatMappedRDD -> ?MappedRDD -> ShuffledRDD?

原文：http://stark-summer.iteye.com/blog/2182748

踩

(0)

评论一句话评论（0）

分享档案

更多>