csv和序列文本文件格式的数据源，需要作为hadoop mapreduce作业运行

pieyvz9o 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(333)

我有csv和文本文件格式的数据源，我想运行hadoop map reduce作业。
如何将数据源转换为hadoop序列文件格式并存储在hdfs中。

来源：https://stackoverflow.com/questions/32043234/data-sources-in-csv-and-sequence-text-file-formats-and-needs-to-be-run-as-hadoop

1条答案

按热度按时间

x759pob21#

要将它们转换为序列文件，最简单的解决方案是使用默认的mapper和reducer运行mapreduce。您需要将outputformatclass指定为sequencefileoutputformat。以下是驱动程序代码的相关部分。

job.setInputFormatClass(TextInputFormat.class);
    job.setOutputFormatClass(SequenceFileOutputFormat.class);

    job.setOutputKeyClass(LongWritable.class);
    job.setOutputValueClass(Text.class);

    // Default Mapper, specified just for clarity
    job.setMapperClass(Mapper.class);
    // Default reducer
    job.setReducerClass(Reducer.class);

赞(0）回复(0）举报 2021-06-04

我来回答

csv和序列文本文件格式的数据源，需要作为hadoop mapreduce作业运行

1条答案

相关问题

热门标签

最新问答