9.WritableComparable排序
- Map和Reduce默认均会按照key进行排序
- 默认排序是按字典排序,且实现方法是快速排
- 对于MapTask,它是将处理的结果暂时放到缓冲区,当达到一定的值后进行排序,所有数据处理完毕后,在进行一次归档排序
- 对于ReduceTask,统一对所有的数据进行一次归档并排序
排序分类
- 部分排序:根据输入记录的键对数据集排序,保证输出的每个文件内部有序
- 全排序:最终输出结果只有一个文件,且文件内部有序。实现方式是设置一个ReduceTask,效率低
- 辅助排序:(GroupingComparator)在Reduce端对key进行分组。应用于:在接受key为bean对象时,想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce方法中,可以用分组排序
- 二次排序:在自定义过程中,如果compareTo中的判断条件为两个几位二次排序。
自定义排序WritableComparable
- 自定义输出中引入WritableComparable接口
public class Bean implements WritableComparable<bean>{
}
- 实现WritableComparable接口重写compareTo方法
@Override
public int compareTo(FlowBean o) {
int result;
// 按照总流量大小,倒序排列
if (sumFlow > bean.getSumFlow()) {
result = -1;
}else if (sumFlow < bean.getSumFlow()) {
result = 1;
}else {
result = 0;
}
return result;
}
9.WritableComparable排序
原文:https://www.cnblogs.com/handsomeplus/p/13760503.html