在datanode节点下,在目录/usr/local/hadoop/tmp/dfs/data/current/下可以找到存储的文件
一般一个文件一个块,文件占用小于块容量的时候。9个小文件,9个块。
运行文件内容过滤任务。grep。
这里是有一个阈值,当map任务完成到阈值,就会启动reduce任务。当一个map运行结束时,reduce就会从jobtracker中获得该信息(map运行结束,tasktracker会得到消息,把消息发送给jobtracker)。reduce获取信息后,就开始工作。
mapreduce.job.reduce.slowstart.completedmaps
//当maptask完成的比例达到该值后,才会为reducetask申请资源,不然会出现资源给reducetask申请了,map没资源可用
yarn.app.mapreduce.am.job.reduce.rampup.limit
//在maptask完成前,最多启动的reducetask
yarn.app.mapreduce.am.job.reduce.preemption.limit
//maptask需要资源但无法获取资源时,可以抢占reduce资源的比例
File System Counters
读取的字节数
写入的字节数
Job Counters
死去的map数
开启的map数
开启的reduce数
Map-Reduc Framework
map 输入的记录数,几行
map 输出的记录数
combine 输入的行数
combine 输出的行数
reduce 输入组数
reduce 输入的行数
reduce 输出行数
原文:https://www.cnblogs.com/chenshaowei/p/12633898.html