首页 > 系统服务 > 详细

Spark入门(一)--用Spark-Shell初尝Spark滋味

时间:2020-01-10 20:52:34      阅读:73      评论:0      收藏:0      [点我收藏+]

Spark-Shell的使用

执行scala命令的spark-shell

进入spark的sbin目录,打开键入

./spark-shell

即可进入spark-shell的目录

技术分享图片

 

spark-shell运行过程从上层来看,每一个spark应用都是由驱动器程序发起集群上的并行操作,在spark-shell中驱动器程序就是spark-shell本身。驱动器通过SparkContext对象来访问spark。事实上在shell启动时就创建了一个SparkContext的对象,其变量是sc,通过shell来查看sc如下

 

技术分享图片

 

通过sc来读取文件:

hello文件中的内容为

u‘you,jump
i,jump
you,jump
i,jump
u,jump

我们在命令行键入

val lines = sc.textFile("/spark/hello”)
lines.count()
lines.first()

 

技术分享图片

 

这里注意到,由于我的sapark是在hadoop集群环境下的,所以这里完整的目录可以理解成hdfs:///spark/hello。

以上这条命令,就把spark目录下hello文件装载到sc当中,但事实上,由于spark的懒加载,此时的文件只有在被操作时才会真正被读取,即lines.count()和lines.first()被执行时,才回去读取内容

执行python命令的spark-shell

当然我们也可以用进入执行python命令的spark-shell。方法如下 进入spark的sbin目录,打开键入

./pyspark-shell

通过python-shell统计hadoop文件目录下的 /spark/hello文件,如下

lines = sc.textFile(‘/spark/hello’)
lines.count()
lines.first()

结果如下:

 

技术分享图片

 

到这里我们的spark-shell就算是正常执行,其中

读取/spark/hello文件:

lines = sc.textFile(‘/spark/hello’)

获取总行数:

lines.count()

第一行内容:

lines.first()



转自:https://juejin.im/post/5c73dee0518825628c30f1d0

Spark入门(一)--用Spark-Shell初尝Spark滋味

原文:https://www.cnblogs.com/tjp40922/p/12177908.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!