spark搭建

时间：2020-05-30 13:59:54 阅读：42 评论：0 收藏：0 [点我收藏+]

前提Hadoop环境已存在

下载：http://spark.apache.org/downloads.html

要根据自己机器中的hadoop版本选择对应的spark版本

Spark小知识:Spark回判断数剧处理时在哪个阶段要缓存数据，以及哪些数据应该缓存，有时候可能不会缓存数据，只是过滤一遍。

spark几点:RDD及转换执行操作、算子、懒执行、广播变量、累加器、RDD谱系、弹性

1. 集群规划

2.安装

(1) 把安装包上传到hadoop01服务器并解压

tar zxvf spark-2.2.0-bin-hadoop2.7.tgz -C /home/hadoop/apps/
cd /home/hadoop/apps/
mv spark-2.2.0-bin-hadoop2.7 spark-2.2.0
cd spark-2.2.0
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves
修改spark-env

export SCALA_HOME=/usr/share/scala
export JAVA_HOME=/usr/java/jdk1.8.0_112/
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop

修改slaves内容

# 里面的内容原来为localhost
hadoop01
hadoop02
hadoop03
hadoop04

分发到其他节点

scp spark-2.1.0-bin-hadoop2.7 root@workerN:/opt

集群所有节点修改环境变量

export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

spark搭建

原文：https://www.cnblogs.com/mergy/p/12975335.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)