hadoop读取输入多次拆分

kcugc4gi  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(388)

我需要多次迭代输入拆分。我需要这个的原因超出了这个问题的范围。假设我只需要它(一个简单的解释是,我需要多次使用输入分割来填充数据结构,分割可能足够大,以至于在第一次迭代之后无法容纳在内存中)
我想我可以做一些技巧,比如扩展 FileInputFormat 以及 RecordReader 多次为split服务,但我想知道hadoop中是否有任何“标准”的方法。我不知道用hadoop实现这一点的任何标准方法,但可能我遗漏了一些东西。
有什么想法吗?

sxissh06

sxissh061#

在多次通过拆分的过程中,您希望如何处理该数据结构(查找、更新等)
您是否尝试过将izig操作与一些早期的hadoop作业,甚至是一些pig脚本并行?

相关问题