在apache nutch中爬行时出错

atmip9wb 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(414)

我已经在hadoop（2.5.2）多节点集群（awsec2机器）上安装了apachenutch2.3.1。我已经相应地配置了nutch文件（在主节点上）。我已经将seed.txt文件（其中包含要爬网的url）从master移动到hdfs文件系统。现在，我运行以下命令来爬网，
bin/hadoop jar/home/ubuntu/nutch/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.crawl url-dir crawl-depth 1-topn 5
我出错了，

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:348)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:205)

我已经安装了java-1.8.0_。我在中发现爬网类在这个java版本中找不到。所以，我们应该用java1.7版本替换java1.8，还是用其他东西来解决这个问题。
帮我解决这个问题。

hadoop java-8 amazon-ec2 nutch web-crawler

来源：https://stackoverflow.com/questions/47725746/error-while-crawling-in-apache-nutch

1条答案

按热度按时间

ctrmrzij1#

班级 org.apache.nutch.crawl.Crawl 多年来一直被移除。建议改为运行shell脚本bin/crawl。它将为爬网的每个步骤启动hadoop作业：注入、生成、获取、解析等。或者，您可以通过bin/nutch运行每个步骤，cf。https://wiki.apache.org/nutch/nutch2tutorial

赞(0）回复(0）举报 2021-05-29

我来回答

在apache nutch中爬行时出错

1条答案

相关问题

热门标签

最新问答