升级Stanford CoreNLP从3.7.0到4.5.1后变慢了,

xlpyo6sf 于 6个月前发布在其他

关注(0)|答案(1)|浏览(52)

一个在循环中调用pipeline.annotate(document)的单元测试似乎耗时增加了50%。我们的配置属性在升级过程中没有发生变化，但可能在4.5.1版本中添加了一些新属性？下面是我们的配置：

是否有办法确定现在哪个标注器占用了更多的时间？
customAnnotatorClass.tokensregex=edu.stanford.nlp.pipeline.TokensRegexAnnotator
sutime.binders=0
tokensregex.rules= .... (省略)
ssplit.eolonly=false
customAnnotatorClass.tokenOverride_en= .... (省略)
annotators=tokenize, ssplit, tokenOverride_en, pos, lemmaOverride_en, ner, tokensregex, entitymentions, parse
language=en
tokenize.whitespace=false
customAnnotatorClass.lemmaOverride_en=.... (省略)
tokenize.options=untokenizable=allKeep,americanize=false
ssplit.isOneSentence=true
nermention.acronyms=true

CoreNLP

来源：https://github.com/stanfordnlp/CoreNLP/issues/1314

1条答案

按热度按时间

mkh04yzy1#

有一个主要的管道程序，叫做StanfordCoreNLP,当它完成时，会报告每个标注器花费的时间。需要注意的是，在4.0.0版本中有一个新的分词标准，通常将单词分割成更多的标记。这可能是导致速度变慢的原因之一......

2022年11月2日，星期三下午3:31,dsbanks99 ***@***.***>写道：一个在循环中运行的单元测试，调用pipeline.annotate(document),似乎花费了大约50%的时间更长。我们的配置属性在升级过程中没有发生变化，但也许在4.5.1中添加了一些新属性？下面是我们目前的情况。有没有办法确定现在哪个标注器使用的时间更多？customAnnotatorClass.tokensregex=edu.stanford.nlp.pipeline.TokensRegexAnnotator sutime.binders=0 tokensregex.rules= ...(省略)ssplit.eolonly=false customAnnotatorClass.tokenOverride_en= ...(省略)annotators=tokenize, ssplit, tokenOverride_en, pos, lemmaOverride_en, ner, tokensregex, entitymentions, parse language=en tokenize.whitespace=false customAnnotatorClass.lemmaOverride_en=...(省略)tokenize.options=untokenizable=allKeep,americanize=false ssplit.isOneSentence=true nermention.acronyms=true — 直接回复此电子邮件，查看GitHub <#1314>上的回复，或取消订阅 < https://github.com/notifications/unsubscribe-auth/AA2AYWKT33ZMND5CBSDZK4DWGLTV7ANCNFSM6AAAAAARVSJN4I > 。您收到此邮件是因为您订阅了此线程。消息ID: ***@***.***>

赞(0）回复(0）举报 6个月前

我来回答

升级Stanford CoreNLP从3.7.0到4.5.1后变慢了,

1条答案

相关问题

热门标签

最新问答