局部敏感性散列spark-ml

jdzmm42g  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(155)

我正在使用位置敏感散列sparkml2.4来匹配相似的名称。我使用hasingtf和idf创建向量。对minhashlsh使用numhashtables=5,但是我得到了很多false+ve和很少的好匹配。
我应该用更高的数值来改善比赛吗?我试图比较的数据集和700万和1200万条记录。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题