1、列出Hadoop集群的Hadoop守护进程和相关的角色。
Namenode:它运行上Master节点(主节点)上,负责存储的文件和目录所有元数据。它管理文件的块信息,以及块在集群中分布的信息。(管理文件系统的命名空间和客户端对文件的访问操作)
Datanode:它是一个存储实际数据的Slave节点(从节点)。它定时向Namenode发送本节点上块的信息。(管理存储的数据)
Secondary Namenode:它会定期通过Editlog合并NameNode的变化,从而它r的日志不会过大。它可以在NameNode的故障的情况下做为副本使用。
JobTracker:这是运行在Namenode上,负责提交和跟踪MapReduce Job的守护程序。它会向Tasktracker分配的任务。
TaskTracker:这是Datanode上运行的守护进程。它在Slave节点上负责具体任务的运行。
ResourceManager的(Hadoop的2.X):它负责YARN上运行的资源和调度。
NodeManager(Hadoop的2.X):它可以运行在Slave节点,并负责启动应用程序的容器,监测他们的资源使用情况(CPU,内存,磁盘,网络),并报告这些到ResourceManager。
JobHistoryServer(Hadoop的2.X):它维护有关的MapReduce工作中的应用终止后的信息。
2、列出的Hadoop 1和Hadoop 2之间的差异。
在Hadoop的1.x中,“Namenode”有单点问题。在Hadoop的2.x中,我们有主动和被动“Namenodes”。如果主动“的Namenode”失败,则被动“的Namenode”负责。正因为如此,高可用性可以Hadoop中2.x中来实现
3、什么是主动和被动的“Namenodes”?
在Hadoop的2.x中,我们有两个Namenodes-主动“Namenode” 被动“Namenode”。主动“Namenode”是在集群中运行的Namenode。被动“的Namenode”是一个备用“的Namenode”,里面有主动“的Namenode”的数据。当主动“Namenode”失败,则被动“Namenode”集群中替换主动“Namenode”。因此,集群是从来不会没有“Namenode”,所以它永远不会失败。
4、当两个客户端尝试访问对HDFS相同的文件,会发生什么?
HDFS只支持独占写入。
当第一个客户端连接“Namenode”打开文件进行写入时,“Namenode”授予租约的客户端创建这个文件。当第二个客户端试图打开同一个文件写入时,“Namenode”会注意到该文件的租约已经授予给另一个客户端,并拒绝第二个客户端打开请求
5)为什么我们有时会得到一个“文件只能被复制到0节点,而不是1”的错误?
这是因为“的Namenode”没有任何可用的DataNodes。
6)怎样才能在HDFS关闭“安全模式”?
您可以使用命令:Hadoop dfsadmin -safemode
7)如何在HDFS定义“block”?Hadoop1和2中Hadoop块大小是多少?是否可以改变?
“块”是可被读取或写入的数据的最小量。 HDFS中的文件被分解成块大小的块,它们被存储作为独立的单元。
Hadoop的1默认块大小:64 MB
Hadoop的2默认块大小:128 MB
是,块可以被配置。该dfs.block.size参数可在HDFS-site.xml文件被用来设置一个块的大小。
8)为什么Hadoop适用于大型数据集的应用程序,而不是具有大量的小文件的应用程序?
相较于在多个分布数据量小的文件 ,HDFS更适合在一个文件中具有大量的数据集。这是因为“Namenode”是非常昂贵的,高性能的系统中,它是不慎重的占据“Namenode”通过了为多个小文件生成的元数据的不必要量的空间。因此,当在一个单独文件中的大量的数据,“Namenode”将占据更少的空间。因此,为获得最佳的性能,HDFS支持大数据集,而不是多个小文件
原文:https://www.cnblogs.com/wangleBlogs/p/9662497.html