首页 > 其他 > 详细

MapReduce中,new Text()引发的写入HDFS的输出文件多一列的问题

时间:2014-07-16 21:46:22      阅读:254      评论:0      收藏:0      [点我收藏+]

前段时间业务系统有个模块数据没有了,在排查问题的时候发现中间处理环节出错了,错误日志为文件格式不正确,将数据导出后发现这个处理逻辑的输入文件中每一行都多了一列,而且是一个空列(列分隔符是\t)。第一次检查代码后没发现代码里多写了一列,第二次排查Reduce代码时,发现在写文件时value为空的Text():

 public void reduce(Text key, Iterator<Text> values,
            OutputCollector<Text, Text> output, Reporter reporter)
            throws IOException  
    {

        String keyString = key.toString();

        Iterator<Text> iterValue = values;

        Double totalSize = 0D;

        while (iterValue.hasNext())
        {
            String value = iterValue.next().toString();
            totalSize += Double.valueOf(value);
        }
        keyString += "\t" + totalSize;
         //原来是这么写的
        // output.collect(new Text(keyString), new Text());
        //应当这么写(此处不推荐new Text(keyString),正确的做法是定义全局的Text,使用的时候用text.Set()):
        output.collect(new Text(keyString), null);
    }

参见上面的代码段。

如果在输出reduce结果时这么写:

output.collect(new Text(keyString), new Text());

就会导致结果文件中有三个\t。

将new Text() 改成null就可以解决问题了。

 

 

 

MapReduce中,new Text()引发的写入HDFS的输出文件多一列的问题,布布扣,bubuko.com

MapReduce中,new Text()引发的写入HDFS的输出文件多一列的问题

原文:http://www.cnblogs.com/sixiweb/p/3835785.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!