hadoop 基础入门及操作

时间：2021-05-13 19:58:43 阅读：20 评论：0 收藏：0 [点我收藏+]

Hadoop 的组成

Hadoop1.x

MapReduce	（计算+资源调度）
HDFS		（数据存储）
Common		（辅助工具）

Hadoop2.x

MapReduce	（计算）
Yarn		（资源调度）
HDFS		（数据存储）
Common		（辅助工具）

HDFS 机构概述

1、NameNode（nn）:存储文件元数据，如文件名，文件目录结构，文件属性（生产时间、副本数、文件权限），以及每个文件的块列表和块所在的Datanode等

2、DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。

3、Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HFDS元数据的快照。

YARN 架构概述

1、ResourceManager（RM）主要作用如下

处理客户的请求
监控NodeManager

2、NodeManager（NM）主要作用如下

管理单个节点上的资源
处理来自ResourceManager的命令
处理来自ApplicationMaser的命令

ApplicationMaser（AM）

负责数据的切分
为应用程序申请资源并分配给内部的任务
任务的监控与容错

Container

Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、cpu、磁盘、网络等。

hadoop 伪分布模式的配置和启动

配置环境

vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk

配置HDFS

etc/hadoop/core-site.xml:

<configuration>
    <property>		<!-- 指定NameNode的地址 -->
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop201:9000</value>
    </property>
    <property>		<!-- 指定Hadoop运行时产生文件的存储目录 -->
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadooop/data/tmp</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

格式化启动hdfs

 bin/hdfs namenode -format

后台启动

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode

jps 验证启动

群起集群

1、如果集群是第一次启动，需要格式化NameNode （注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程），然后再删除data和logs目录

bin/hdfs namenode -format

2、启动HDFS

sbin/start-dfs.sh

3、启动YARN

sbin/start-yarn.sh

4、web 端查看SecondaryNameNode

浏览器输入：http://hadoop20?:50090

注意：NameNode和ResourceManager如果不是同一台机器，不能在NameNode上启动YARN，应该在ResourceManager所在的机器上启动YARN。

hadoop 基础入门及操作

原文：https://www.cnblogs.com/ophui/p/14765120.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)