我有csv和文本文件格式的数据源,我想运行hadoop map reduce作业。如何将数据源转换为hadoop序列文件格式并存储在hdfs中。
x759pob21#
要将它们转换为序列文件,最简单的解决方案是使用默认的mapper和reducer运行mapreduce。您需要将outputformatclass指定为sequencefileoutputformat。以下是驱动程序代码的相关部分。
job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(SequenceFileOutputFormat.class); job.setOutputKeyClass(LongWritable.class); job.setOutputValueClass(Text.class); // Default Mapper, specified just for clarity job.setMapperClass(Mapper.class); // Default reducer job.setReducerClass(Reducer.class);
1条答案
按热度按时间x759pob21#
要将它们转换为序列文件,最简单的解决方案是使用默认的mapper和reducer运行mapreduce。您需要将outputformatclass指定为sequencefileoutputformat。以下是驱动程序代码的相关部分。