ubuntu18.04安装spark（伪分布式）

时间：2019-04-29 16:17:11 阅读：145 评论：0 收藏：0 [点我收藏+]

在安装spark之前，首先需要安装配置Hadoop,这个就不做详细介绍了，可以参看博主的另一篇：

https://blog.csdn.net/weixin_42001089/article/details/81865101

##################################################################################################

Hadoop
按上面文章配置后，启动hdfs文件系统以及yarn资源调度器:

使用jps查看是否启动成功：

出现如上即表示启动成功！！！！！！！！

说明：
ResourceManager和NodeManager是yarn资源调度器启动的

DataNode、 NameNode和SecondaryNameNode是hdfs文件系统启动的

所以如果有哪项没有启动成功，就说明对应（yarn或hdfs）的配置文件没有配置成功，需要去看日志手动解决

二者都有相应的web即：

yarn:

http://localhost:8088/cluster

hdfs:

http://localhost:50070/

###################################################################################################

Scala安装：
下载地址：https://www.scala-lang.org/download/2.11.8.html

下载好后解压到：/usr/local/

sudo tar zxvf scala-2.11.8.tgz -C /usr/local/
删除安装包：

rm scala-2.11.8.tgz
进入到减压目录并重命名：

cd /usr/local/

sudo mv scala-2.11.8 scala
配置环境变量：

sudo vim /etc/profile

source /etc/profile
测试：

################################################################################################

Spark安装：
下载地址：http://spark.apache.org/downloads.html

下载好后解压到：/usr/local/

sudo tar zxvf spark-2.3.1-bin-hadoop2.7.tgz -C /usr/local/
删除安装包：

rm spark-2.3.1-bin-hadoop2.7.tgz
进入到减压目录并重命名：

?cd /usr/local/
sudo mv spark-2.3.1-bin-hadoop2.7 spark
配置环境：
sudo vim /etc/profile

source /etc/profile
配置配置spark-env.sh
进入到spark/conf/

cp spark-env.sh.template spark-env.sh
vim spark-env.sh
export JAVA_HOME=/usr/local/java/jdk1.8.0_181
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native
java，hadoop等具体路径根据自己实际环境设置。

配置Slave
cp slaves.template slaves
vim slaves

默认就是localhost

启动（前提是hadoop伪分布已经启动，就是上面的jps后出现那几个）：
启动sbin目录下的start-master.sh以及start-slaves.sh

注意：

sbin目录下都是些启动或关闭操作，尤其注意下有start-slaves.sh和start-slave.sh，这里启动的是start-slaves.sh

Spark的web界面：http://127.0.0.1:8099/

启动bin目录下的spark-shell

可以看到已经进入到scala环境，此时就可以编写代码啦！！！！！！！！！

spark-shell的web界面http://127.0.0.1:4040

当然为了方便，还可以配置修改BASH配置：
vim /etc/bash.bashrc
export SPARK_HOME=/usr/local/spark

export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH
source /etc/bash.bashrc
以后就可以方便使用了。

简略日志：
spark将所有日志都会输出，很详细，所以屏幕打印很多，由于混合了很多日志不利于寻找程序执行的结果，所以要将info，改为warn，这样打印结果简单明了了许多。

cd $SPARK_HOME/conf
cp log4j.properties.template log4j.properties
sudo vim log4j.properties

以上介绍了进入scala编程环境，如果想要使用python环境开发，可以参考：https://blog.csdn.net/weixin_42001089/article/details/82383856
---------------------
作者：weixin_42001089
来源：CSDN
原文：https://blog.csdn.net/weixin_42001089/article/details/82346367
版权声明：本文为博主原创文章，转载请附上博文链接！

ubuntu18.04安装spark（伪分布式）

原文：https://www.cnblogs.com/pypygo/p/10790970.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)