java—在mapreduce中使用不同的inputformatclass调用多个Map器

kxxlusnw 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(253)

我想用三个字母写一个代码 Mapper 其中两个将处理 ".csv" 其他文件是 ".xml" . 我已经写信了 XmlInputFormat 为了 .xml 从此处格式化
现在我想知道我应该输入什么

job.setInputFormatClass(...);

以及我应该添加哪些来提供文件路径。

TextInputFormat.addInputPath(...)
 TextOutputFormat.setInputPath(...)

或者

TextInputFormat.addInputPath(...)
TextOutputFormat.setInputPath(...)

来源：https://stackoverflow.com/questions/49232274/calling-more-than-one-mapper-with-different-inputformatclass-in-mapreduce

1条答案

按热度按时间

xlpyo6sf1#

您应该考虑编写两个Map器，一个处理程序 .csv 文件和其他 .xml . 但是，Map器和 key-value 的 same type ，供单个减速机加工。
下面是一个使用 org.apache.hadoop.mapred.lib.MultipleInputs 同样地：

MultipleInputs.addInputPath(jobConf, 
                     new Path(csvFilePath),       
                     SequenceFileInputFormat.class, 
                     CSVProcessingMapper.class);
MultipleInputs.addInputPath(jobConf, 
                     new Path(xmlFilePath), 
                     XmlInputFormat.class, 
                     XMLProcessingMapper.class);

在这里 CSVProcessingMapper.class 以及 XmlInputFormat.class 是 CSV 以及 XML 正在处理Map程序。您可以为不同的输入类型创建尽可能多的Map器。同样地 SequenceFileInputFormat.class 以及 XmlInputFormat.class 类是相应的输入格式类。

赞(0）回复(0）举报 2021-06-01

我来回答

java—在mapreduce中使用不同的inputformatclass调用多个Map器

1条答案

相关问题

热门标签

最新问答