pyspark Sparkconf()参数配置

时间：2021-02-24 23:28:49 阅读：145 评论：0 收藏：0 [点我收藏+]

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession


def create_sc():
    sc_conf = SparkConf()
    sc_conf.setMaster(‘spark://master:7077‘)
    sc_conf.setAppName(‘my-app‘)
    sc_conf.set(‘spark.executor.memory‘, ‘2g‘)  #executor memory是每个节点上占用的内存。每一个节点可使用内存
    sc_conf.set("spark.executor.cores", ‘4‘) #spark.executor.cores：顾名思义这个参数是用来指定executor的cpu内核个数，分配更多的内核意味着executor并发能力越强，能够同时执行更多的task
    sc_conf.set(‘spark.cores.max‘, 40)    #spark.cores.max：为一个application分配的最大cpu核心数，如果没有设置这个值默认为spark.deploy.defaultCores
    sc_conf.set(‘spark.logConf‘, True)    #当SparkContext启动时，将有效的SparkConf记录为INFO。
    print(sc_conf.getAll())

    sc = SparkContext(conf=sc_conf)

    return sc

from pyspark.conf import SparkConf
conf=SparkConf()
        conf.set(‘spark.sql.execute.arrow.enabled‘,‘true‘)
        if os.getenv("APP_MODE") == ‘prod‘:
            """
            集群环境
            """
            url = ‘spark://master:7077‘
            conf.setAppName(‘prod-practice-info‘).setMaster(url).set("spark.driver.maxResultSize", "12g").set("spark.executor.memory", ‘4g‘)
        else:
            """
            本地环境
            """
            print("本地环境")
            url = ‘local[*]‘
            conf.setAppName(‘prod-practice-info‘).setMaster(url)
        spark = SparkSession.builder.             config(conf=conf).            getOrCreate()

原文：https://www.cnblogs.com/ExMan/p/14443231.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)