如何实现levenshtein算法

68de4m5k  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(463)

我有两个数据集。a{(1,苹果),(2,橙色),(3,香蕉)}和b={(1,甲骨文),(2,猿),(3,娜娜),(4,奥兰多),(5,应用程序)(6,横幅)}
我有一个自定义项,它在两个字符串之间给出levenshtein分数。但是如何计算a中的每个字段和b中的所有字段,以获得b中最匹配的字符串。
例如,a中“苹果”的levenshtein分数比b中“猿”的levenshtein分数更适合应用程序,a中“橙色”的levenshtein分数比b中“奥兰多”的levenshtein分数更适合甲骨文,a中“香蕉”的levenshtein分数比b中的banner更适合naana。

z9gpfhce

z9gpfhce1#

可能做一个 CROSS . 然后计算每对的lvenshtein距离,找出每对的最大值。
http://pig.apache.org/docs/r0.13.0/basic.html#cross

相关问题