和block_size相关
default_num=total_size/block_size
可通过mapred.map.tasks设置,只有在大于default_num时才生效
goal_num=mapred.map.tasks
即每个task处理的文件大小,可通过mapred.min.split.size设置,只有在大于bolck_size时才生效
split_size=max(mapred.min.split.size, block_size)
split_num=total_size/split_size
每个map处理的数据不能跨文件
compute_map_num=min(split_num, max(default_num, goal_num))
final_map_num=max(compute_map_num, input_file_num)
原文:https://www.cnblogs.com/lijiong/p/14512428.html