一、 写出hadoop集群常用进程以及进程含义
1、Namenode
它是Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。
2、Datanode
它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个 datanode 守护进程。
3、secondaryNameNode
它不是 namenode 的冗余守护进程,而是提供周期检查点和清理任务。 出于对可扩展性和容错性等考虑,我们一般将SecondaryNameNode运行在一台非NameNode的机器上。
4、ResourceManager
负责调度 DataNode上的工作。每个 DataNode有一个NodeManager,它们执行实际工作。
5、NodeManager
负责执行ResourceManager分发的任务
2.Hadoop安装部署需要修改的配置文件,以及常用端口,举例说明
hadoop-env.sh hadoop jdk配置
core-site.xml hadoop核心文件-配置hadoop的命名服务和tmp目录和zookeeper集群
hdfs-site.xml 配置通信端口 http端口等。
mapred-site.xml 配置mapreduce的资源调度框架 yarn
yarn-site.xml yarn相关配置
Slaves 文件 指定hadoop集群的子节点位置
端口:
50070 namenode的web访问端口
9000 RPC通信端口
2181 zookeeper端口
3.使用过的hadoop shell 命令
Hadoop fs -ls /
Hadoop fs -mkdir /test
Hadoop fs -cat /
原文:https://www.cnblogs.com/Robi-9662/p/12506401.html