前提:安装好jdk1.7,hadoop
安装步骤:
1、安装scala
下载地址:http://www.scala-lang.org/download/
配置环境变量:
export SCALA_HOME=/..../scala
export PATH=.:$SCALA_HOME/bin ....
验证:scala -version
2、安装spark
使用自己编译过的对应自己hadoop的spark
配置环境变量:
export SPARK_HOME=/.../spark
export PATH=.:$SPARK_HOME/bin ....
修改spark配置文件:
1)$SPARK_HOME/conf/spark-env.sh
2)$SPARK_HOME/conf/slave.sh
配置worknode节点hostname,一行配置一个
3、启动spark
$SPARK_HOME下的sbin和bin说明:
sbin:存放的是启动和停止spark集群等的命令;
bin:存放的是应用程序(spark-shell)启动和停止等的命令。
启动spark集群(sbin目录下):start-all.sh
启动后浏览器访问:http://hadoop000:8080/
注:hadoop000为hostname
启动spark-shell(bin目录下):
1)单机启动方式:spark-shell
2)集群启动方式:
spark-shell --master spark://hadoop000:7077
默认情况下Application的Memory是512M,申请所有的CPU资源;
指定executor的memory和cpu core数:spark-shell --master spark://hadoop000:7077 --executor-memory 2g --total-executor-cores 1
注意:executor-memory是每个worker占用的,而executor-cores是所有worker一共占用
具体参数配置的来源:SparkSubmit.scala中的options属性
为了启动方便起见,可以将master配置到spark-env.sh中
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}
再启动spark-shell时,只需要: spark-shell
如果要指定参数,则使用:spark-shell --executor-memory 2g --total-executor-cores 1
Spark Standalone模式环境搭建,布布扣,bubuko.com
原文:http://www.cnblogs.com/luogankun/p/3798404.html