Hadoop的:键和值是选项卡在输出文件中分离。 如何做到这一点分号分隔?(Hadoop: ke

2019-06-25 11:47发布

我觉得冠军已经说明我的问题。 我想改变

key (tab space) value

key;value

在所有输出文件的减速从映射器的输出端产生。

我找不到这个使用谷歌良好的文档。 任何人都可以请您给的代码就如何实现这一目标的一小部分?

Answer 1:

设置配置属性mapred.textoutputformat.separator";"



Answer 2:

在缺乏更好的文档的,这里是我收集的:

    setTextOutputFormatSeparator(final Job job, final String separator){
            final Configuration conf = job.getConfiguration(); //ensure accurate config ref

            conf.set("mapred.textoutputformat.separator", separator); //Prior to Hadoop 2 (YARN)
            conf.set("mapreduce.textoutputformat.separator", separator);  //Hadoop v2+ (YARN)
            conf.set("mapreduce.output.textoutputformat.separator", separator);
            conf.set("mapreduce.output.key.field.separator", separator);
            conf.set("mapred.textoutputformat.separatorText", separator); // ?
    }


Answer 3:

你可以使用“KeyValueLineRecordReader”的“KEY_VALUE_SEPERATOR”属性来指定您选择的分隔符。



文章来源: Hadoop: key and value are tab separated in the output file. how to do it semicolon-separated?