YARN(Yet Another Resource Negotiator),它是统一的资源管理平台,是在Hadoop2.0中才出现的一个组件。
YARN是Hadoop的处理层,包含资源管理器和作业调度器。它在它的资源管理器中去分配好队列,这个队列划分可以根据业务规则,根据技术的模块进行划分,比如同时拥有hive和hbase的应用,我可以为hive分配多少内存,分配多少cpu,为hbase分配多少资源,优先级多少等等。
YARN允许多个数据处理引擎同时运行在单个集群上,比如:
批处理程序(比如:Spark,MapReduce)
交互式SQL(比如:Impala)
高级分析(比如:Spark,Impala)
流处理(比如:Spark Streaming)
了解了YARN的特点,那么YARN资源管理的进程是怎样的呢?
第一步:Resource Manager(RM):运行在master节点,全局资源调度。
第二步:Node Manager(NM):运行在slave节点,跟RM通信
第三步:Containers:在Slave节点上分配特定量的资源(内存,CPU),应用运行在一个或多个containers上。
第四步:Application Master(AM):每个应用一个,请求更多的containers来运行应用任务。
以上关于YARN的介绍是自己的一些理解和认知,至于YARN的架构以及其他方面的知识,想了解的可以自己去查询学习。我平常的时候喜欢关注大数据cn这样的微信公众号码去了解一些知识,有兴趣的也可以去看看,希望大家多多分享,共同进步!
原文:http://11882756.blog.51cto.com/11872756/1879640