我使用Sklearn countvectorizer()是这样的
vectorizer = CountVectorizer(
stop_words="english",
lowercase=False,
ngram_range=ngram_range,
)
我不想将我的文本转换为小写,但我想删除所有的停用词,无论情况如何。上面的代码过滤掉了the
,但没有过滤掉The
或THE
。我想过滤the
,THE
,The
。是否可以通过CountVectorizer()实现而不改变大小写?
1条答案
按热度按时间bqujaahr1#
我不认为有一个简单的方法来覆盖停止字删除和只有停止字删除,但如果你通过一个自定义的分析器,你可以提供自己的停止字删除。
这是我能想到的最小的东西,它不会从分析器中删除任何功能:
输出:
这可以删除
the
和The
,而不会更改词汇表其余部分的大小写。