Spark快速回顾汇总

时间：2020-05-07 00:37:08 阅读：57 评论：0 收藏：0 [点我收藏+]

1 Spark 有几种部署方式

1）Local:运行在一台机器上
2）Standalone:构建一个基于 Master+Slaves 的资源调度集群，Spark 任务提交给 Master 运行。是 Spark 自身的一个调度系统。
3）Yarn: Spark 客户端直接连接 Yarn，不需要额外构建 Spark 集群。有 yarn-client 和 yarn-cluster 两种模式，主要区别在于：Driver 程序的运行节点。
4）Mesos：比较少用。

2 Spark 提交作业参数

1）提交任务时的重要参数
executor-cores —— 每个 executor 使用的内核数，默认为 1，官方建议 2-5 个，企业是 4 个
num-executors —— 启动 executors 的数量，默认为 2
executor-memory —— executor 内存大小，默认 1G
driver-cores —— driver 使用内核数，默认为 1
driver-memory —— driver 内存大小，默认 512M
2) 提交任务的样式
spark-submit \
--master local[5] \
--driver-cores 2 \
--driver-memory 8g \
--executor-cores 4 \
--num-executors 10 \
--executor-memory 8g \
--class PackageName.ClassName XXXX.jar \
--name "Spark Job Name" \
InputPath \
OutputPath

3 Spark 的架构与作业提交流程

YarnCluster模式
技术分享图片

Spark快速回顾汇总

原文：https://www.cnblogs.com/eugene0/p/12839567.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)