首页 > 其他 > 详细

大数据面试题

时间:2018-09-22 18:54:51      阅读:184      评论:0      收藏:0      [点我收藏+]

1、介绍一下Hadoop的框架

存储hdfs,计算框架MapReduce,资源管理Yarn

2、简单说下HDFS的读写流程

a、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息,因为真正的block是存在Datanode节点上的,而

  namenode里存放block位置信息的元数据。

b、Namenode返回所有block的位置信息,并将这些信息返回给客户端。

c、客户端拿到block的位置信息后调用FSDataInputStream  API的read方法并行的读取block信息,block默认是3个副本,所以每个block只需要取一个副本就可以了。

d、datanode返回给客户端。

3、介绍下HDFS中实现数据容错的方式/机制

a、每个数据块3个副本,分布在不同的机架上

b、DataNode定期向NameNode发送心跳

4、介绍一下Yarn的框架结构

5、介绍一下Yarn框架中的Job调度方式

6、说明一下MapReduce的框架结构

7、简单说明一下MapReduce中的Shuffle过程

8、MapReduce的容错机制是如何实现的

9、MapReduce的二次排序机制是什么?

10、HDFS启动流程

11、MapReduce的生命周期/MapReduce的提交执行流程

大数据面试题

原文:https://www.cnblogs.com/zk753159/p/9690668.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!