如果我有一个命令行程序,输入和输出如下:
md5sum < hadoop-2.7.2.tar.gz
c442bd89b29cab9151b5987793b94041 -
如何使用hadoop运行它?这似乎是一个令人尴尬的简单问题,但我尝试的解决方案都没有产生正确的结果:
自定义二进制输入-hadoop
体图像数据的分布式处理
二进制输入的hadoop流作业?
也许,我只是没能正确地按照说明去做。所以,请详细解释一下,或者至少指出一些有用的文档。
如果我有一个命令行程序,输入和输出如下:
md5sum < hadoop-2.7.2.tar.gz
c442bd89b29cab9151b5987793b94041 -
如何使用hadoop运行它?这似乎是一个令人尴尬的简单问题,但我尝试的解决方案都没有产生正确的结果:
自定义二进制输入-hadoop
体图像数据的分布式处理
二进制输入的hadoop流作业?
也许,我只是没能正确地按照说明去做。所以,请详细解释一下,或者至少指出一些有用的文档。
1条答案
按热度按时间kx5bkwkv1#
您可以使用wholefileinputformat和hadoop流媒体。你可能遇到的问题是,如果你有大量的文件,你想充分阅读-但如果你有强烈的要求,有整个文件作为输入到你的文件
program
,那么您应该要么确保输入是合理的,要么找到更好的算法,以完全接受mr的拆分和可伸缩性。