我发现stormcrawler中还不支持文档重复数据消除。这是不是在酝酿未来?我这样问是因为我看到签名元数据可以添加到status核心中,并且可以用于在索引之前删除具有相同签名值的重复项。只是一个想法,如果我想的方向是正确的?谢谢,苏曼
kupeojn61#
md5signatureparsefilter根据文档的内容计算签名。这用于自适应调度,以确定文档是否已更改。您可以将相同的元数据索引到solr中以进行重复数据消除,例如,将其用作文档的主键。由于stormcrawler孤立地查看每个文档,因此很难像nutch使用mapreduce那样对副本执行操作。一种选择是让一个外部进程直接将重复项解析到索引后端(例如solr),但这将在stormcrawler之外,并且依赖于后端。简而言之,如果您可以使用哈希作为重复数据消除的主键,那么您就已经拥有了所需的所有元素,但这可能是stormcrawler所能做到的。我发现stormcrawler中还不支持文档重复数据消除。你在哪里看到的?
1条答案
按热度按时间kupeojn61#
md5signatureparsefilter根据文档的内容计算签名。这用于自适应调度,以确定文档是否已更改。您可以将相同的元数据索引到solr中以进行重复数据消除,例如,将其用作文档的主键。由于stormcrawler孤立地查看每个文档,因此很难像nutch使用mapreduce那样对副本执行操作。一种选择是让一个外部进程直接将重复项解析到索引后端(例如solr),但这将在stormcrawler之外,并且依赖于后端。
简而言之,如果您可以使用哈希作为重复数据消除的主键,那么您就已经拥有了所需的所有元素,但这可能是stormcrawler所能做到的。
我发现stormcrawler中还不支持文档重复数据消除。
你在哪里看到的?