Spark- Spar架构原理

时间：2017-10-22 10:25:08 阅读：258 评论：0 收藏：0 [点我收藏+]

Spark架构原理

1.Driver

选spark节点之一，提交我们编写的spark程序，开启一个Driver进程，由Driver进程执行

2.Master

是一个进程，主要负责资源的调度和分配，还有集群的监控等职责。

3.Worker

由我们spark配置文件slave决定，它是一个进程。主要负责两个，一个是自己内存存储的RDD的某个partition ；另一个是启动其他进程和线程，对RDD上的partition 进行并行的处理和计算。

4.Executor

Worker会为应用程序启动Executor，Executor是一个进程

5.Task

Executor会为应用程序启动Task线程，Executor和Task其实就是执行负责执行，对RDD的partition 进行并行的计算了，也就是执行我们对RDD定义的，比如map，flatMap，reduce等算子操作。

我们由一个Spark应用程序，当我们一提交就会在spark中启动一个Driver进程。

Driver进程启动之后，会做一些初始化的操作，在这个过程中，就会发送请求到Master上，进行Spark应用程序的注册，说白了就是让Master 知道，有一个新的Spark应用程序要运行。

Master在接受到Spark应用程序的注册申请之后，会发送请求给Worker，为该应用程序进行资源的调度和分配，资源分配就是Executor的分配。

Worker接收到Master的请求之后，会为Spark应用启动Executor。

Executor启动之后，会向Driver进行反注册，这样，Driver就知道，哪些Executor是为它服务的了。

Driver注册了一些Executor之后，就可以开始正式执行我们的Spark应用程序了，首先第一步，创建初始RDD，读取数据。HDFS文件内容被读取到多个Worker节点上，形成内存中的分布式数据集，也就是初始RDD。

Driver会根据我们对RDD定义的操作，提交一大堆的task去Executor上

Executor接收到task之后，会启动多个线程来执行task。

task会对RDD的partition数据执行指定的算子操作，形成新的RDD的partition。

原文：http://www.cnblogs.com/RzCong/p/7707553.html

踩

(0)

评论一句话评论（0）

分享档案

更多>