Spark源码剖析——SparkContext的初始化(四)_Hadoop相关配置及Executor环境变量

时间：2018-07-15 23:05:35 阅读：280 评论：0 收藏：0 [点我收藏+]

4. Hadoop相关配置及Executor环境变量的设置

4.1 Hadoop相关配置信息

默认情况下，Spark使用HDFS作为分布式文件系统，所以需要获取Hadoop相关配置信息的代码如下：

技术分享图片

获取的配置信息包括：

将Amazon S3文件系统的AccessKeyId和SecretAccessKey加载到Hadoop的Configuration；
将SparkConf中所有以spark.hadoop. 开头的属性都复制到Hadoop的Configuration；
将SparkConf的属性spark.buffer.size复制为Hadoop的Configuration的配置io.file.buffer.size；

注意：如果指定了SPARK_YARN_MODE属性，则会使用YarnSparkHadoopUtil，否则默认为SparkHadoopUtil。

4.2 Executor环境变量

对Executor的环境变量的处理，见代码如下。executorEnvs包含的环境变量将会在注册应用的过程中发送给Master，Master给Worker发送调度后，Worker最终使用executorEnvs提供的信息启动Executor，可以通过配置spark.executor.memory指定Executor占用的内存大小，也可以配置系统变量SPARK_EXECUTOR_MEMORY或者SPARK_MEM对其大小进行设置。代码如下：

技术分享图片

Spark源码剖析——SparkContext的初始化(四)_Hadoop相关配置及Executor环境变量

原文：https://www.cnblogs.com/swordfall/p/9306113.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)