MapReduce (计算+资源调度)
HDFS (数据存储)
Common (辅助工具)
MapReduce (计算)
Yarn (资源调度)
HDFS (数据存储)
Common (辅助工具)
1、NameNode(nn):存储文件元数据,如文件名,文件目录结构,文件属性(生产时间、副本数、文件权限),以及每个文件的块列表和块所在的Datanode等
2、DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3、Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HFDS元数据的快照。
1、ResourceManager(RM)主要作用如下
2、NodeManager(NM)主要作用如下
ApplicationMaser(AM)
Container
配置环境
vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk
配置HDFS
etc/hadoop/core-site.xml:
<configuration>
<property> <!-- 指定NameNode的地址 -->
<name>fs.defaultFS</name>
<value>hdfs://hadoop201:9000</value>
</property>
<property> <!-- 指定Hadoop运行时产生文件的存储目录 -->
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadooop/data/tmp</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
格式化启动hdfs
bin/hdfs namenode -format
后台启动
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
jps 验证启动
1、如果集群是第一次启动,需要格式化NameNode (注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程),然后再删除data和logs目录
bin/hdfs namenode -format
2、启动HDFS
sbin/start-dfs.sh
3、启动YARN
sbin/start-yarn.sh
4、web 端查看SecondaryNameNode
浏览器输入:http://hadoop20?:50090
注意:NameNode和ResourceManager如果不是同一台机器,不能在NameNode上启动YARN,应该在ResourceManager所在的机器上启动YARN。
原文:https://www.cnblogs.com/ophui/p/14765120.html