将nutch1.8或1.9作为hadoop作业运行

vawmfj5a  于 2021-05-30  发布在  Hadoop
关注(0)|答案(3)|浏览(389)

如果我理解正确,就不能将nutch1.8和1.9作为hadoop作业运行,因为这些版本没有一个crawl类作为所有crawl步骤的 Package 器。这意味着没有一个类可以在hadoop调用中指定来运行整个作业。在nutch1.7中,它曾经是org.apache.nutch.crawl.crawl类。
我错过什么了吗?有人想办法解决这个问题吗?

jutyujz0

jutyujz01#

你的理解是错误的。您应该使用脚本bin/crawl。在每个步骤中,您都应该看到应该调用的相应类(以防您想在爬网脚本之外使用它)。另外,据我所知,你引用的那个类已经被否决了。

sq1bmfud

sq1bmfud2#

您的场景有两种不同的选择。
1-你可以实现你的爬网类,让ant考虑你的爬网类来构建hadoop作业。
2-您可以按所需的顺序安排不同的类在hadoop集群上运行(注入(生成提取分析…)
然而,我选择了第一种解决方案。但第二个也行。

ubbxdtey

ubbxdtey3#

另外,看看https://github.com/b-cube/nutch-crawler 它是crawl类的nutch1.9的一个分支,因此可以将其作为hadoop作业运行。

相关问题