Spark shell可以连接到Spark集群,spark shell本身也是spark的一个应用,是和Spark集群的一种交互方式。每次action动作的执行,都会对应一个job。
#进入Spark bin目录
$>cd /soft/spark/bin
#连接到Spark master的RPC端口
$>spark-shell --master spark://s101:7077
注意:spark://s101:7077地址是在spark webui中显式的Spark master RPC端口,如下图所示:
连接成功,进入如下画面:
启动spark-shell后,读取hdfs上的文件,实现word count。操作步骤和在local模式下没有本质的不同,除了文件路径指定的是hdfs路径之外,其他部分均是相同的。shell操作如下:
$scala>sc.textFile("hdfs://mycluster/user/centos/1.txt")
.flatMap(_.split(" "))
.map((_,1))
.reduceByKey(_+_)
.collect
执行之后,运算结果如下图所示:
查看spark webui界面显示结果如下图所示:
原文:https://www.cnblogs.com/xupccc/p/9543971.html