**已关闭。**此问题正在寻求有关书籍、工具、软件库等的建议。它不符合Stack Overflow guidelines。当前不接受答案。
我们不允许问题寻求有关书籍、工具、软件库等的推荐。你可以编辑问题,以便可以使用事实和引用来回答问题。
2天前关闭。
Improve this question
我有一个由两列组成的数据集,一列有ID,另一列有Text。我想要运行一个算法,自动提取文本中相同(或基于阈值相似)的部分,只在数据集列中留下不同的部分。知道是否有Python库可以做到这一点吗?
谢谢!
1条答案
按热度按时间eh57zj3b1#
我想你可以用difflib库
链接:https://docs.python.org/3/library/difflib.html