首页 > 其他 > 详细

大数据学习之MapReduce基础与Yarn集群安装09

时间:2019-05-02 00:45:33      阅读:191      评论:0      收藏:0      [点我收藏+]

1大数据解决的问题?

 

海量数据的存储:hadoop->分布式文件系统HDFS

海量数据的计算:hadoop->分布式计算框架MapReduce

 

2什么是MapReduce?

 

分布式程序的编程框架,java->ssh ssm ,目的:简化开发!

是基于hadoop的数据分析应用的核心框架。

mapreduce的功能:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的

分布式运算程序,并发的运行在hadoop集群上。

 

3 MapReduce的优缺点

 

优点:

1)易于编程

2)良好的拓展性

3)高容错性

4)适合处理PB级别以上的离线处理

 

缺点:

1)不擅长做实时计算

2)不擅长做流式计算(mr的数据源是静态的)

3)不支持DAG(有向图)计算(spark

 

MapReduce核心编程思想图:

 技术分享图片

 

4自动化调度平台yarn(mr程序的运行平台)

 

mr程序应该在多台机器上运行启动,而且要先执行maptask,等待每个maptask都处理完成后

还要启动很多个reducetask,这个过程要用户手动调用任务不太现实,

需要一个自动化的任务调度平台->hadoop当中2.x中提供了一个分布式调度平台-YARN

 

Yarn任务提交流程图

 技术分享图片

 

5搭建yarn集群

 

1)修改配置文件 yarn-site.xml

<property>

<name>yarn.resourcemanager.hostname</name>

<value>bigdata11</value>

</property>

 

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

 

2)然后复制到每台机器  $PWD 当前目录

scp yarn-site.xml root@bigdata12:$PWD

scp yarn-site.xml root@bigdata13:$PWD

 

3)修改slaves文件(之前配置了就不用再配了)

 

然后在bigdata11上,修改hadoopslaves文件,列入要启动nodemanager的机器

然后将bigdata11到所有机器的免密登陆配置好

 

4)脚本启动yarn集群:

启动:

sbin/start-yarn.sh

停止:

sbin/stop-yarn.sh

 

5)访问web端口

启动完成后,可以在windows上用浏览器访问resourcemanagerweb端口:

http://bigdata11:8088

大数据学习之MapReduce基础与Yarn集群安装09

原文:https://www.cnblogs.com/hidamowang/p/10801337.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!