大数据面试题

时间：2018-09-22 18:54:51 阅读：186 评论：0 收藏：0 [点我收藏+]

1、介绍一下Hadoop的框架

存储hdfs，计算框架MapReduce，资源管理Yarn

2、简单说下HDFS的读写流程

a、客户端发送请求，调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息，因为真正的block是存在Datanode节点上的，而

　　namenode里存放block位置信息的元数据。

b、Namenode返回所有block的位置信息，并将这些信息返回给客户端。

c、客户端拿到block的位置信息后调用FSDataInputStream API的read方法并行的读取block信息，block默认是3个副本，所以每个block只需要取一个副本就可以了。

d、datanode返回给客户端。

3、介绍下HDFS中实现数据容错的方式/机制

a、每个数据块3个副本，分布在不同的机架上

b、DataNode定期向NameNode发送心跳

4、介绍一下Yarn的框架结构

5、介绍一下Yarn框架中的Job调度方式

6、说明一下MapReduce的框架结构

7、简单说明一下MapReduce中的Shuffle过程

8、MapReduce的容错机制是如何实现的

9、MapReduce的二次排序机制是什么？

10、HDFS启动流程

11、MapReduce的生命周期/MapReduce的提交执行流程

原文：https://www.cnblogs.com/zk753159/p/9690668.html

踩

(0)

评论一句话评论（0）

分享档案

更多>