mapreduce的多表输入

voj3qocg 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(309)

我正在考虑使用accumulo表作为输入来做一个mapreduce。
有没有一种方法可以让两个不同的表作为输入，就像输入多个文件一样 addInputPath ?
或者一个输入来自一个文件，另一个输入来自一个带有 AccumuloInputFormat ?

hadoop mapreduce accumulo

来源：https://stackoverflow.com/questions/44755879/multiple-table-input-for-mapreduce

1条答案

按热度按时间

j8ag8udp1#

你可能想看看 AccumuloMultiTableInputFormat . accumulo手册在这里演示了如何使用它。
用法示例：

job.setInputFormat(AccumuloInputFormat.class);

AccumuloMultiTableInputFormat.setConnectorInfo(job, user, new PasswordToken(pass));
AccumuloMultiTableInputFormat.setMockInstance(job, INSTANCE_NAME);

InputTableConfig tableConfig1 = new InputTableConfig();
InputTableConfig tableConfig2 = new InputTableConfig();

Map<String, InputTableConfig> configMap = new HashMap<String, InputTableConfig>();
configMap.put(table1, tableConfig1);
configMap.put(table2, tableConfig2);

AccumuloMultiTableInputFormat.setInputTableConfigs(job, configMap);

有关更多信息，请参阅此处的AccumulomMultiTableInputFormat单元测试。
请注意，与正常的多输入不同，不能指定在每个表上运行不同的Map器。不过，由于传入的键/值类型相同，因此在这种情况下这不是一个大问题，您可以使用：

RangeInputSplit split = (RangeInputSplit)c.getInputSplit();
String tableName = split.getTableName();

在Map器中计算记录来自哪个表（取自accumulo手册）。

赞(0）回复(0）举报 2021-06-02

我来回答

mapreduce的多表输入

1条答案

相关问题

热门标签

最新问答