05、Spark

时间：2018-08-27 20:32:52 阅读：171 评论：0 收藏：0 [点我收藏+]

05、Spark shell连接到Spark集群执行作业

Spark shell可以连接到Spark集群，spark shell本身也是spark的一个应用，是和Spark集群的一种交互方式。每次action动作的执行，都会对应一个job。

#进入Spark bin目录
$>cd /soft/spark/bin

#连接到Spark master的RPC端口
$>spark-shell --master spark://s101:7077

注意：spark://s101:7077地址是在spark webui中显式的Spark master RPC端口，如下图所示：

技术分享图片

连接成功，进入如下画面：

技术分享图片

启动spark-shell后，读取hdfs上的文件，实现word count。操作步骤和在local模式下没有本质的不同，除了文件路径指定的是hdfs路径之外，其他部分均是相同的。shell操作如下：

$scala>sc.textFile("hdfs://mycluster/user/centos/1.txt")
    .flatMap(_.split(" "))
    .map((_,1))
    .reduceByKey(_+_)
    .collect

执行之后，运算结果如下图所示：

技术分享图片

查看spark webui界面显示结果如下图所示：

技术分享图片

原文：https://www.cnblogs.com/xupccc/p/9543971.html

踩

(0)

评论一句话评论（0）

分享档案

更多>