我有一个双机集群。在一台机器上配置nutch,在另一台机器上配置hbase和hadoop。hadoop处于完全分布式模式,hbase处于伪分布式模式。我已经收集了大约280gb的数据。但现在当我开始爬行的时候。它给出以下消息,不再在上一个表中爬网
info mapreduce.gorarecordreader-gora.buffer.read.limit=10000 info crawl.fetchschedulefactory-使用fetchschedule impl:org.apache.nutch.crawl.defaultfetchschedule
以及下面的bug
错误store.hbasestore-[ljava.lang.stacktraceelement@7ae0c96b型
已提取文档,但未保存在hbase中。但是,如果我在新表中对数据进行爬网,它工作正常,并且能够正确地进行爬网,而不会出现任何错误。我认为这不是一个新表的连接问题,它可以工作。我想是因为一些财产等原因。
有谁能指导我,因为我不是Apache坚果Maven?
2条答案
按热度按时间x6492ojm1#
因为我也面临着同样的问题。实际问题是regionserver(hbase deamon)。因此,尝试重新启动它,因为它在与默认seeting一起使用时处于关闭状态,而且hbase中的数据太多。有关详细信息,请参阅regionserver的日志文件。
mitkmikd2#
不完全是我的领域,但在底层机器上看起来像是线程耗尽。