R -确定2个不同列中的值是否至少95%匹配

hk8txs48 于 2023-06-27 发布在其他

关注(0)|答案(1)|浏览(110)

考虑以下示例dataframe：

df <- data.frame(Client = c('Client1', 'Client2', 'Client3', 'Client4', 'Client5'),
         'Home Address' = c('123 N. Franklin Ave.', '345 Circle Drive', '567 Smith St. Suite 5', '678 Buchanan Rd. SW', '12 State Street'),
         'Mail Address' = c('123 Franklin Avenue', '345 S. Circle Dr.', '567 Smith Street Ste 5', '678 Buchanan Road', '17 Ralph Lane'))

如果你仔细观察与地址相关的列，它们基本上都是（除了一个），唯一的区别是包括或排除了方向或街道缩写。我想做的是在两者之间进行比较，以确定两个地址列之间是否至少有95%的匹配。
因此，示例结果将是df的附加列，说明“是”或“否”。
如何做到这一点？

来源：https://stackoverflow.com/questions/76526952/r-determine-if-values-in-2-different-columns-are-at-least-a-95-match

1条答案

按热度按时间

f4t66c6m1#

这里是一个使用Jaro-Winkler距离的例子，它使用某个“窗口”内匹配字符的数量、换位和两个字符串的长度来计算相似性分数。在开头具有匹配字符的字符串的权重更大（p）。

library(stringdist)

df |>
  dplyr::mutate(jw = 1 - stringdist(`Home Address`, `Mail Address`, method = "jw", p = .1))

您可以使用此jw列为数据创建截止值。

输出

Client  `Home Address`        `Mail Address`            jw
  <chr>   <chr>                 <chr>                  <dbl>
1 Client1 123 N. Franklin Ave.  123 Franklin Avenue    0.872
2 Client2 345 Circle Drive      345 S. Circle Dr.      0.862
3 Client3 567 Smith St. Suite 5 567 Smith Street Ste 5 0.913
4 Client4 678 Buchanan Rd. SW   678 Buchanan Road      0.934
5 Client5 12 State Street       17 Ralph Lane          0.555

赞(0）回复(0）举报 2023-06-27

我来回答

R -确定2个不同列中的值是否至少95%匹配

1条答案

相关问题

热门标签

最新问答