首页 > 其他 > 详细

pyspark Sparkconf()参数配置

时间:2021-02-24 23:28:49      阅读:144      评论:0      收藏:0      [点我收藏+]
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession


def create_sc():
    sc_conf = SparkConf()
    sc_conf.setMaster(spark://master:7077)
    sc_conf.setAppName(my-app)
    sc_conf.set(spark.executor.memory, 2g)  #executor memory是每个节点上占用的内存。每一个节点可使用内存
    sc_conf.set("spark.executor.cores", 4) #spark.executor.cores:顾名思义这个参数是用来指定executor的cpu内核个数,分配更多的内核意味着executor并发能力越强,能够同时执行更多的task
    sc_conf.set(spark.cores.max, 40)    #spark.cores.max:为一个application分配的最大cpu核心数,如果没有设置这个值默认为spark.deploy.defaultCores
    sc_conf.set(spark.logConf, True)    #当SparkContext启动时,将有效的SparkConf记录为INFO。
    print(sc_conf.getAll())

    sc = SparkContext(conf=sc_conf)

    return sc

 

 

 

from pyspark.conf import SparkConf
conf=SparkConf()
        conf.set(spark.sql.execute.arrow.enabled,true)
        if os.getenv("APP_MODE") == prod:
            """
            集群环境
            """
            url = spark://master:7077
            conf.setAppName(prod-practice-info).setMaster(url).set("spark.driver.maxResultSize", "12g").set("spark.executor.memory", 4g)
        else:
            """
            本地环境
            """
            print("本地环境")
            url = local[*]
            conf.setAppName(prod-practice-info).setMaster(url)
        spark = SparkSession.builder.             config(conf=conf).            getOrCreate()

 

pyspark Sparkconf()参数配置

原文:https://www.cnblogs.com/ExMan/p/14443231.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!