hadoop读取输入多次拆分

kcugc4gi 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(417)

我需要多次迭代输入拆分。我需要这个的原因超出了这个问题的范围。假设我只需要它（一个简单的解释是，我需要多次使用输入分割来填充数据结构，分割可能足够大，以至于在第一次迭代之后无法容纳在内存中）
我想我可以做一些技巧，比如扩展 FileInputFormat 以及 RecordReader 多次为split服务，但我想知道hadoop中是否有任何“标准”的方法。我不知道用hadoop实现这一点的任何标准方法，但可能我遗漏了一些东西。
有什么想法吗？

hadoop split Input iteration regression

来源：https://stackoverflow.com/questions/12551454/hadoop-read-input-split-multiple-times