我正在运行一个nutch1.16,hadoop2.83,solr8.5.1的爬虫程序安装程序,它可以运行到几百万个索引页面。然后我在mapreduce作业期间遇到了java堆空间问题,我似乎找不到正确的方法来增加堆空间。我试过:
经过 -D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m
开始坚果爬行时。
编辑nutch\u home/bin/crawl commonoptions mapred.child.java.opts to -Xmx16000m
将hadoop\u home/etc/hadoop/mapred-site.xml mapred.child.java.opts设置为 -Xmx160000m -XX:+UseConcMarkSweepGC
将mapred-site.xml复制到我的nutch/conf文件夹中
这些似乎都没有改变什么。我在爬网过程中的同一点遇到了相同的堆空间错误。我已经尝试将获取线程从25个减少到12个,并在获取时关闭解析。什么都没变,我也没主意了。我有64gb的内存,所以这不是问题。请帮忙;)
编辑:将文件名固定为mapred-site.xml
1条答案
按热度按时间ogq8wdun1#
经过
-D ...
还需要使用“mapreduce.reduce.memory.mb”和“mapreduce.reduce.java.opts”为reduce任务设置堆空间。请注意,脚本bin/crawl最近在这方面得到了改进,请参阅nutch-2501和最近的bin/crawl脚本。3./4. 设置/复制hadoop-site.xml
这不应该在“mapred site.xml”中设置吗?