一、spark的提交模式
--master(standalone\YRAN\mesos)
standalone:-client -cluster 如果我们用client模式去提交程序,我们在哪个地方提交的代码,哪个地方就启动driver;如果我们用的是cluster模式去提交,spark会在集群随机挑一台作为driver
./bin/spark-shell --master spark://master:7077 --deploy-mode client 这样打印出的日志信息比较信息,便于调试
YARN:
--client 申请资源 driver-applicationmaster-RM,剩下一样
--cluster driver和applicationmaster在同一台机器上
提交:bin/saprk-submit --master yarn --deploy-mode client (1.6.0版本)
二、spark 调优
补充:
1、企业中hadoop用的最多的是CDH版本,现在我们用的是Apache版本 (CDH\apache版本都是免费)
CDH有
cdh3.x 对应hadoop hadoop1
cdh4.x(HDFS HA+Fderation/CM管理hadoop集群/Cloudera Manager) 对应hadoop hadoop0.20.2
cdh5.x (HDFS/YARN) 对应hadoop hadoop 2.0.0
(HA两种实现:共享文件的方式,QJM)
2、一年工作经验面试问题
cdh 5.1.3(2014年底--2015年) 用的hadoop 版本2.3.0 spark (没有用)
cdh5.3.0(2015年年底-2016) hadoop2.5.0 spark 1.3.0(spark1.5.0或者spark1.6.0)
3、spark application :
(1)Driver (2)excutor
原文:http://www.cnblogs.com/liuwei6/p/6668064.html