apachenutch在限制之后刷新gora记录

vfhzx4xs 于 2021-05-31 发布在 Hadoop

关注(0)|答案(1)|浏览(364)

我已经用hadoop/hbase生态系统配置了nutch2.3.1。我没有改变 gora.buffer.read.limit 以及 gora.buffer.read.limit i、例如，在这两种情况下都使用默认值10000。在生成阶段，我将topn设置为100000。在生成作业期间，我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

作业完成后，我发现100000个URL被标记为我想要的回迁。但我不知道上面的警告显示了什么？gora.buffer.read.limit对我的爬网有什么影响？有人能指引吗？

hadoop hbase nutch nutch2 gora

来源：https://stackoverflow.com/questions/49872466/apache-nutch-flushes-gora-record-after-limit

1条答案

按热度按时间

ldioqlga1#

日志写在这里。默认情况下，缓冲区是在写入10000条记录后刷新的，因此必须对其进行配置 gora.buffer.write.limit 至 60000 （在 core-site.xml 或者 mapred-site.xml 或者代码？）。
这并不重要，因为它是在信息级别。它只通知写入缓冲区将被写入存储器。每次你打电话的时候都会有写作过程 store.flush() ，或 gora.buffer.write.limit 批量大小。

赞(0）回复(0）举报 2021-06-01

我来回答

apachenutch在限制之后刷新gora记录

1条答案

相关问题

热门标签

最新问答