**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。
7年前关门了。
改进这个问题
我们的网站允许用户以自由文本形式进入他们工作的公司。历史上,我们收集了数百万个独特的条目。由于我们没有设置任何限制,我们最终会出现很多变体、拼写错误(例如,仅麦当劳就有1000多个不同的条目)
我们意识到,只要我们能将这些变体结合起来,我们就能为用户提供一个很好的特性。我们利用各种在线资源汇编了一份完整的公司名单作为起点[词典]
现在,我们正试图找到处理用户数据源的最佳方法。我们考虑了分配一些相似性分数:-将每个条目与[dictionary]进行比较,计算词汇距离(可能在hadoop作业中)-利用一些搜索数据库(例如solr)
并以这种方式关联用户输入文本。
我们想知道的是,有没有人经历过类似的“分类”练习,可以分享一些提示?
谢谢,彼得
1条答案
按热度按时间wkyowqbh1#
我会用简单的levenshtein距离(http://en.wikipedia.org/wiki/levenshtein_distance).
几百万个条目-您应该能够在一台计算机上轻松地处理它(没有hadoop或其他重型工具)。