csv和序列文本文件格式的数据源,需要作为hadoop mapreduce作业运行

pieyvz9o  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(333)

我有csv和文本文件格式的数据源,我想运行hadoop map reduce作业。
如何将数据源转换为hadoop序列文件格式并存储在hdfs中。

x759pob2

x759pob21#

要将它们转换为序列文件,最简单的解决方案是使用默认的mapper和reducer运行mapreduce。您需要将outputformatclass指定为sequencefileoutputformat。以下是驱动程序代码的相关部分。

job.setInputFormatClass(TextInputFormat.class);
    job.setOutputFormatClass(SequenceFileOutputFormat.class);

    job.setOutputKeyClass(LongWritable.class);
    job.setOutputValueClass(Text.class);

    // Default Mapper, specified just for clarity
    job.setMapperClass(Mapper.class);
    // Default reducer
    job.setReducerClass(Reducer.class);

相关问题