我在df列中有一个标记化的文本。从其中删除停止词的代码可以工作,但我喜欢删除标点符号、数字和特殊字符,而不需要拼写它们。就像我想确保它也删除了更大的数字/标记化为一个标记。
我的当前代码是:
eng_stopwords = stopwords.words('english')
punctuation = ['.', ',', ';', ':', '!' #and so on]
complete_stopwords = punctuation + eng_stopwords
df['removed'] = df['tokenized_text'].apply(lambda words: [word for word in words if word not in complete_stopwords])
1条答案
按热度按时间u3r8eeie1#
你可以从字符串模块中获取标点符号: