动态添加输入数据到hadoop map reduce作业?

inb24sb2  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(340)

我可以在map reduce作业运行时将输入文件或输入数据附加到该作业而不创建竞争条件吗?

agxfikkp

agxfikkp1#

我认为理论上你可以在输入中添加更多的文件,只要:
匹配您的fileinputformat模式
在inputformat.getsplits()调用之前发生,这在提交作业后会给您很短的时间。
关于计算拆分后的争用条件,请注意,“附加到现有文件”仅在版本0.21.0之后才可用。
即使你可以修改你的文件,你的分割点已经预先计算过了,很可能你的新数据不会被Map绘制者提取出来。不过,我怀疑这会导致你的人流崩溃。
您可以尝试的是禁用文件内的拆分(即分配Map器文件)并尝试附加。我认为一些有可能被刷新的数据最终可能会出现在Map器中(这只是我的猜测)。

yruzcnhs

yruzcnhs2#

实际上,答案是“不”。分割是在游戏的早期计算的:之后你的新文件将不包括在内。

相关问题