如果我理解正确,就不能将nutch1.8和1.9作为hadoop作业运行,因为这些版本没有一个crawl类作为所有crawl步骤的 Package 器。这意味着没有一个类可以在hadoop调用中指定来运行整个作业。在nutch1.7中,它曾经是org.apache.nutch.crawl.crawl类。我错过什么了吗?有人想办法解决这个问题吗?
jutyujz01#
你的理解是错误的。您应该使用脚本bin/crawl。在每个步骤中,您都应该看到应该调用的相应类(以防您想在爬网脚本之外使用它)。另外,据我所知,你引用的那个类已经被否决了。
sq1bmfud2#
您的场景有两种不同的选择。1-你可以实现你的爬网类,让ant考虑你的爬网类来构建hadoop作业。2-您可以按所需的顺序安排不同的类在hadoop集群上运行(注入(生成提取分析…)然而,我选择了第一种解决方案。但第二个也行。
ubbxdtey3#
另外,看看https://github.com/b-cube/nutch-crawler 它是crawl类的nutch1.9的一个分支,因此可以将其作为hadoop作业运行。
3条答案
按热度按时间jutyujz01#
你的理解是错误的。您应该使用脚本bin/crawl。在每个步骤中,您都应该看到应该调用的相应类(以防您想在爬网脚本之外使用它)。另外,据我所知,你引用的那个类已经被否决了。
sq1bmfud2#
您的场景有两种不同的选择。
1-你可以实现你的爬网类,让ant考虑你的爬网类来构建hadoop作业。
2-您可以按所需的顺序安排不同的类在hadoop集群上运行(注入(生成提取分析…)
然而,我选择了第一种解决方案。但第二个也行。
ubbxdtey3#
另外,看看https://github.com/b-cube/nutch-crawler 它是crawl类的nutch1.9的一个分支,因此可以将其作为hadoop作业运行。