有谁能告诉我如何在hadoop中使用mapreduce解决下面的问题吗。假设我有一个如下结构的文件记录1-值1记录2-值2记录3-值3记录4-值4记录5-值5记录6-值6记录7-键1记录8–值8记录9–值9记录10–值10记录11–值11记录12–值12记录13–值13记录14–键2我希望输出是键和值的串联字符串,如下所示键1值1值2值3值4值5值6键2值8值9值10值11值12值13
bfhwhh0e1#
是的,根据您的数据和文件的结构和大小,您可以通过多种方式解决问题,也许通过提供更多的信息,我们可以给您一个更准确的答案:如果同一文件中有相同的字段,则使用combinefileinputformat类。防止拆分fileinputformat子类并重写issplittable()方法。您还可以检查keyvaluetextinputformat类,该类允许您使用不同于行偏移量的内容作为键逐行读取文件。可以通过mapreduce.input.keyvaluelinerecordreader.key.value.separator指定分隔符(逗号)希望有帮助
1条答案
按热度按时间bfhwhh0e1#
是的,根据您的数据和文件的结构和大小,您可以通过多种方式解决问题,也许通过提供更多的信息,我们可以给您一个更准确的答案:
如果同一文件中有相同的字段,则使用combinefileinputformat类。
防止拆分fileinputformat子类并重写issplittable()方法。
您还可以检查keyvaluetextinputformat类,该类允许您使用不同于行偏移量的内容作为键逐行读取文件。可以通过mapreduce.input.keyvaluelinerecordreader.key.value.separator指定分隔符(逗号)
希望有帮助