我的ubuntu上安装了nutch1.13。我可以在独立模式下运行爬网。它成功地运行并产生了预期的结果,但我不知道如何在hadoop中运行它了?我已经在伪分布式模式下安装了hadoop,我想用hadoop运行nutch爬网并监视它。我该怎么做?有很多关于在独立模式下运行它的教程,但是我找不到任何关于如何在hadoop中运行它的明确说明,除了我必须在用ant构建它之后使用“nutch job”。
谢谢你的帮助。
我的ubuntu上安装了nutch1.13。我可以在独立模式下运行爬网。它成功地运行并产生了预期的结果,但我不知道如何在hadoop中运行它了?我已经在伪分布式模式下安装了hadoop,我想用hadoop运行nutch爬网并监视它。我该怎么做?有很多关于在独立模式下运行它的教程,但是我找不到任何关于如何在hadoop中运行它的明确说明,除了我必须在用ant构建它之后使用“nutch job”。
谢谢你的帮助。
1条答案
按热度按时间8tntrjer1#
确保您已经从源代码构建了nutch,即不要使用仅在本地模式下工作的二进制版本。一旦你用
ant清理运行时
转到runtime/deploy/bin并像往常一样运行脚本。
注意:您需要在重新编译之前修改conf文件。