我需要多次迭代输入拆分。我需要这个的原因超出了这个问题的范围。假设我只需要它(一个简单的解释是,我需要多次使用输入分割来填充数据结构,分割可能足够大,以至于在第一次迭代之后无法容纳在内存中)我想我可以做一些技巧,比如扩展 FileInputFormat 以及 RecordReader 多次为split服务,但我想知道hadoop中是否有任何“标准”的方法。我不知道用hadoop实现这一点的任何标准方法,但可能我遗漏了一些东西。有什么想法吗?
FileInputFormat
RecordReader
sxissh061#
在多次通过拆分的过程中,您希望如何处理该数据结构(查找、更新等)您是否尝试过将izig操作与一些早期的hadoop作业,甚至是一些pig脚本并行?
1条答案
按热度按时间sxissh061#
在多次通过拆分的过程中,您希望如何处理该数据结构(查找、更新等)
您是否尝试过将izig操作与一些早期的hadoop作业,甚至是一些pig脚本并行?