我使用nltk
从句子中生成n-gram,首先删除给定的停止词。然而,nltk.pos_tag()
非常慢,在我的CPU(Intel i7)上占用了0.6秒。
输出:
['The first time I went, and was completely taken by the live jazz band and atmosphere, I ordered the Lobster Cobb Salad.']
0.620481014252
["It's simply the best meal in NYC."]
0.640982151031
['You cannot go wrong at the Red Eye Grill.']
0.644664049149
字符串
代码:
for sentence in source:
nltk_ngrams = None
if stop_words is not None:
start = time.time()
sentence_pos = nltk.pos_tag(word_tokenize(sentence))
print time.time() - start
filtered_words = [word for (word, pos) in sentence_pos if pos not in stop_words]
else:
filtered_words = ngrams(sentence.split(), n)
型
是真的这么慢还是我做错了什么?
4条答案
按热度按时间frebpwbc1#
使用
pos_tag_sents
标记多个句子:字符串
zkure5ic2#
字符串
所以每次调用pos_tag都会示例化perceptrontagger模块,这会花费大量的计算时间。你可以通过直接调用tagger.tag来保存这段时间:
型
km0tfn4u3#
如果您正在寻找另一个在Python中具有快速性能的POS标记器,您可能想尝试RDRPOSTagger。例如,在英语POS标记上,Python中单线程实现的标记速度为8 K单词/秒,使用Core 2Duo 2.4GHz的计算机。只需使用多线程模式即可获得更快的标记速度。RDRPOSTagger与state相比具有非常有竞争力的精度-最先进的标记器,现在支持40种语言的预训练模型。请参阅this paper中的实验结果。
3lxsmp7m4#
如果你使用嵌套列表,你应该扁平化并使用单个列表,这将有助于你提高StanfordPOSTagger的速度。