我使用的是ApacheNutch2.3。我有一个由4个hadoop(1.2.1)节点组成的小集群。我正在运行爬虫的一个示例。它每天爬行大约3万到5万页。我必须每天抓取更多的网页(假定值约为100万)。我试过不同的问题,从常见问题解答的坚果。但爬网的文件无法增加。我认为我应该在完全分布式模式下运行nutch(我期望nutch的完全分布式模式运行多个示例)。我的问题有什么解决办法?
wvyml7n51#
通常,您应该增加topn值并设置 <name>http.content.limit</name> (在nutch site.xml中)到-1
<name>http.content.limit</name>
1条答案
按热度按时间wvyml7n51#
通常,您应该增加topn值并设置
<name>http.content.limit</name>
(在nutch site.xml中)到-1