首页 > 其他 > 详细

Hadoop常见问题

时间:2018-09-17 16:03:20      阅读:155      评论:0      收藏:0      [点我收藏+]

1、列出Hadoop集群的Hadoop守护进程和相关的角色。

Namenode:它运行上Master节点(主节点)上,负责存储的文件和目录所有元数据。它管理文件的块信息,以及块在集群中分布的信息。(管理文件系统的命名空间和客户端对文件的访问操作)

Datanode:它是一个存储实际数据的Slave节点(从节点)。它定时向Namenode发送本节点上块的信息。(管理存储的数据)

Secondary Namenode:它会定期通过Editlog合并NameNode的变化,从而它r的日志不会过大。它可以在NameNode的故障的情况下做为副本使用。

JobTracker:这是运行在Namenode上,负责提交和跟踪MapReduce Job的守护程序。它会向Tasktracker分配的任务。

TaskTracker:这是Datanode上运行的守护进程。它在Slave节点上负责具体任务的运行。

ResourceManager的(Hadoop的2.X):它负责YARN上运行的资源和调度。

NodeManager(Hadoop的2.X):它可以运行在Slave节点,并负责启动应用程序的容器,监测他们的资源使用情况(CPU,内存,磁盘,网络),并报告这些到ResourceManager。

JobHistoryServer(Hadoop的2.X):它维护有关的MapReduce工作中的应用终止后的信息。

2、列出的Hadoop 1和Hadoop 2之间的差异。
在Hadoop的1.x中,“Namenode”有单点问题。在Hadoop的2.x中,我们有主动和被动“Namenodes”。如果主动“的Namenode”失败,则被动“的Namenode”负责。正因为如此,高可用性可以Hadoop中2.x中来实现

3、什么是主动和被动的“Namenodes”?
在Hadoop的2.x中,我们有两个Namenodes-主动“Namenode” 被动“Namenode”。主动“Namenode”是在集群中运行的Namenode。被动“的Namenode”是一个备用“的Namenode”,里面有主动“的Namenode”的数据。当主动“Namenode”失败,则被动“Namenode”集群中替换主动“Namenode”。因此,集群是从来不会没有“Namenode”,所以它永远不会失败。

4、当两个客户端尝试访问对HDFS相同的文件,会发生什么?
HDFS只支持独占写入。

当第一个客户端连接“Namenode”打开文件进行写入时,“Namenode”授予租约的客户端创建这个文件。当第二个客户端试图打开同一个文件写入时,“Namenode”会注意到该文件的租约已经授予给另一个客户端,并拒绝第二个客户端打开请求

5)为什么我们有时会得到一个“文件只能被复制到0节点,而不是1”的错误?
这是因为“的Namenode”没有任何可用的DataNodes。

6)怎样才能在HDFS关闭“安全模式”?
您可以使用命令:Hadoop dfsadmin -safemode

7)如何在HDFS定义“block”?Hadoop1和2中Hadoop块大小是多少?是否可以改变?
“块”是可被读取或写入的数据的最小量。 HDFS中的文件被分解成块大小的块,它们被存储作为独立的单元。

Hadoop的1默认块大小:64 MB

Hadoop的2默认块大小:128 MB

是,块可以被配置。该dfs.block.size参数可在HDFS-site.xml文件被用来设置一个块的大小。

8)为什么Hadoop适用于大型数据集的应用程序,而不是具有大量的小文件的应用程序?
相较于在多个分布数据量小的文件 ,HDFS更适合在一个文件中具有大量的数据集。这是因为“Namenode”是非常昂贵的,高性能的系统中,它是不慎重的占据“Namenode”通过了为多个小文件生成的元数据的不必要量的空间。因此,当在一个单独文件中的大量的数据,“Namenode”将占据更少的空间。因此,为获得最佳的性能,HDFS支持大数据集,而不是多个小文件

 

Hadoop常见问题

原文:https://www.cnblogs.com/wangleBlogs/p/9662497.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!