我正在使用位置敏感散列sparkml2.4来匹配相似的名称。我使用hasingtf和idf创建向量。对minhashlsh使用numhashtables=5,但是我得到了很多false+ve和很少的好匹配。我应该用更高的数值来改善比赛吗?我试图比较的数据集和700万和1200万条记录。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!