hadoop1.2.1上nutch1.9中缺少org.apache.nutch.crawl.crawl

pkbketx9  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(302)

我已经安装了完全分布式的hadoop1.2.1。我尝试将nutch与以下步骤结合起来:
下载apache-nutch-1.9-src.zip
将值http.agent.name添加到nutch-site.xml中
复制 hadoop-env.sh , core-site.xml , hdfs-site.xml , mapred-site.xml , masters , slaves 进入$nutch\u home/conf
编译使用 ant runtime 创建 urls/seed.txt 安装hadoop dfs
编辑$nutch\u home/conf/regex-urlfilter.txt
使用以下命令测试爬网: bin/hadoop -jar nutch-1.9.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5 并得到以下错误:
线程“main”java.lang.classnotfoundexception中出现异常:org.apache.nutch.crawl.crawl at java.net.urlclassloader$1.run(urlclassloader)。java:366)在java.net.urlclassloader$1.run(urlclassloader。java:355)位于java.net.urlclassloader.findclass(urlclassloader)的java.security.accesscontroller.doprivileged(本机方法)。java:354)在java.lang.classloader.loadclass(类加载器。java:425)在java.lang.classloader.loadclass(classloader。java:358)在java.lang.class.forname0(本机方法)在java.lang.class.forname(类。java:270)在org.apache.hadoop.util.runjar.main(runjar。java:153)
我尝试提取nutch-1.9.job,但在org/apache/nutch/crawl中找不到类crawl。
我需要配置什么吗?

qacovj5a

qacovj5a1#

在1.8版本中删除了crawl.java。可以对所有爬网使用爬网shell脚本。
不推荐使用的类o.a.n.crawl.crawler仍在代码库中https://issues.apache.org/jira/browse/nutch-1621

相关问题