我正在试验elasticsearch的内置minhashing。文档说明了用于jaccard相似性的,因为它有一个集合表示。我们是要在查询后提取集合并计算jaccard相似度,还是在内部使用相似度进行评分,如果是这样的话,如何计算?我知道集合上的余弦相似性产生了jaccard的等价物,但是当默认相似性为bm25时会发生什么呢?
另外,如果有人能给我提供代码示例/配置,以便在重复检测附近工作,我将不胜感激。
我正在试验elasticsearch的内置minhashing。文档说明了用于jaccard相似性的,因为它有一个集合表示。我们是要在查询后提取集合并计算jaccard相似度,还是在内部使用相似度进行评分,如果是这样的话,如何计算?我知道集合上的余弦相似性产生了jaccard的等价物,但是当默认相似性为bm25时会发生什么呢?
另外,如果有人能给我提供代码示例/配置,以便在重复检测附近工作,我将不胜感激。
暂无答案!
目前还没有任何答案,快来回答吧!