我已经用hadoop/hbase生态系统配置了nutch2.3.1。我没有改变 gora.buffer.read.limit
以及 gora.buffer.read.limit
i、 例如,在这两种情况下都使用默认值10000。在生成阶段,我将topn设置为100000。在生成作业期间,我得到以下信息
org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records
作业完成后,我发现100000个URL被标记为我想要的回迁。但我不知道上面的警告显示了什么?gora.buffer.read.limit对我的爬网有什么影响?有人能指引吗?
1条答案
按热度按时间ldioqlga1#
日志写在这里。默认情况下,缓冲区是在写入10000条记录后刷新的,因此必须对其进行配置
gora.buffer.write.limit
至60000
(在core-site.xml
或者mapred-site.xml
或者代码?)。这并不重要,因为它是在信息级别。它只通知写入缓冲区将被写入存储器。每次你打电话的时候都会有写作过程
store.flush()
,或gora.buffer.write.limit
批量大小。