带二进制文件的hadoop

cigdeys3  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(569)

如果我有一个命令行程序,输入和输出如下:

md5sum < hadoop-2.7.2.tar.gz 
c442bd89b29cab9151b5987793b94041  -

如何使用hadoop运行它?这似乎是一个令人尴尬的简单问题,但我尝试的解决方案都没有产生正确的结果:
自定义二进制输入-hadoop
体图像数据的分布式处理
二进制输入的hadoop流作业?
也许,我只是没能正确地按照说明去做。所以,请详细解释一下,或者至少指出一些有用的文档。

kx5bkwkv

kx5bkwkv1#

您可以使用wholefileinputformat和hadoop流媒体。你可能遇到的问题是,如果你有大量的文件,你想充分阅读-但如果你有强烈的要求,有整个文件作为输入到你的文件 program ,那么您应该要么确保输入是合理的,要么找到更好的算法,以完全接受mr的拆分和可伸缩性。

相关问题