识别不同书写的相同名称?

mitkmikd  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(279)

假设我有不同的表格,上面写着不同的名字:

John Doe
John W. Doe
john doe
john w doe

您使用什么将所有条目关联到jvm上的同一实体(重复数据消除)?
python中的重复数据消除库似乎是一个可以完成这项工作的工具。jvm是否也有类似的功能,比如使用spark?
这个问题列出了一些备选方案,但可能不是最新的。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题