Hadoop1.03和Nutch1.5版本

tzxcd3kk  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(334)

在hadoop1.03上运行nutch-1.5时,出现了以下错误。
hadoop jar nutch-1.5.job org.apache.nutch.crawl.crawl url-dir url-depth 1-topn 5


**Caused by: java.io.IOException: can't find class: org.apache.nutch.protocol.ProtocolStatus because org.apache.nutch.protocol.ProtocolStatus**

我看到错误报告了https://issues.apache.org/jira/browse/nutch-1084 关于nutch-1.3,但似乎还没有解决。感谢您的帮助。
我遵循以下教程:
http://wiki.apache.org/nutch/nutchhadooptutorial
http://wiki.apache.org/nutch/nutchtutorial
http://wiki.apache.org/hadoop/howtoconfigure
编辑
我遵循这个教程http://www.rui-yang.com/develop/build-nutch-1-4-cluster-with-hadoop/ 这对我很有用。我不知道到底是什么解决了这个问题。我在一个节点上运行hadoop。我做了以下改变:
1.将hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、master、slaves从hadoop/conf复制到nutch/conf并重建nutch
2.export classpath=:$nutch\u home/runtime/local/lib
我创建了以下教程http://dataspider.blogspot.com.es/2012/09/instalacion-de-hadoop.html

9bfwbjaz

9bfwbjaz1#

如果您想使用hadoop1.0.3,那么使用nutch1.5.1而不是1.5
查看nutch1.5.1的发行说明https://issues.apache.org/jira/secure/releasenote.jspa?projectid=10680&version=12321850
它没有说,如果nutch-1084得到了这个版本的修复,但下面的补丁是包括在这个版本https://issues.apache.org/jira/browse/nutch-1398

相关问题