[Hadoop] mapper数量的控制

可以通过mapred.max.split.size(ex. =512000000)调节逻辑块的大小。

block size是hdfs中每个数据块的物理大小，比如64MB, 128MB

一般来说，mapper在split时默认按照block size来分的，那么mapper的个数就是 data_size / block_size 向上取整。

split size是可以人为指定的逻辑块的大小，当希望mapper数量小一些的时候，可以把split size指定的大一些，这样 data_size / split_size 向上取整之后就是新的mapper个数。

每个mapper相当于可以执行并行计算的工人，mapper多一些，就多一些数据被并行计算，这样看起来似乎mapper多一些运行的更快；

但是要考虑到由于集群资源限制，有时候并不是设置的所有mapper都可以并行执行，是先执行一些mapper，完成一个mapper再调度新的mapper，这样就有任务调度时候的时间开销。

(1) 如果每个mapper分到的数据比较小，那么这个mapper执行是比较快的，比如几十秒，那么hadoop就要去调度执行其他的mapper，这里有个调度任务的时间。

如果mapper数量非常大，而每个mapper执行时间又很短，那么可能很大一部分时间不是用于执行任务了，而是用于调度了，这样总的运行时间就会较长，不够高效。

看上面的tip提到的每个mapper运行时间的建议，一般可以通过调节split size的大小，即控制给每个mapper的数据大小，来调节每个mapper的运行时间，进而提高运行效率。

(2) 如果每个mapper分到的数据比较大，一方面是内存占用比较大，容易爆内存；另一方面，如果单个mapper运行时间过长，这个mapper压力是比较大的，如果可以多设置一些mapper，可以更好的实现并行运算，进而提高效率。