将nutch1.8或1.9作为hadoop作业运行

vawmfj5a 于 2021-05-30 发布在 Hadoop

关注(0)|答案(3)|浏览(389)

如果我理解正确，就不能将nutch1.8和1.9作为hadoop作业运行，因为这些版本没有一个crawl类作为所有crawl步骤的 Package 器。这意味着没有一个类可以在hadoop调用中指定来运行整个作业。在nutch1.7中，它曾经是org.apache.nutch.crawl.crawl类。
我错过什么了吗？有人想办法解决这个问题吗？

来源：https://stackoverflow.com/questions/29546056/run-nutch-1-8-or-1-9-as-a-hadoop-job

3条答案

按热度按时间

你的理解是错误的。您应该使用脚本bin/crawl。在每个步骤中，您都应该看到应该调用的相应类（以防您想在爬网脚本之外使用它）。另外，据我所知，你引用的那个类已经被否决了。

赞(0）回复(0）举报 2021-05-30

您的场景有两种不同的选择。
1-你可以实现你的爬网类，让ant考虑你的爬网类来构建hadoop作业。
2-您可以按所需的顺序安排不同的类在hadoop集群上运行(注入（生成提取分析…）
然而，我选择了第一种解决方案。但第二个也行。

赞(0）回复(0）举报 2021-05-30

另外，看看https://github.com/b-cube/nutch-crawler 它是crawl类的nutch1.9的一个分支，因此可以将其作为hadoop作业运行。

赞(0）回复(0）举报 2021-05-30

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前