升级Stanford CoreNLP从3.7.0到4.5.1后变慢了,

xlpyo6sf  于 6个月前  发布在  其他
关注(0)|答案(1)|浏览(53)

一个在循环中调用pipeline.annotate(document)的单元测试似乎耗时增加了50%。我们的配置属性在升级过程中没有发生变化,但可能在4.5.1版本中添加了一些新属性?下面是我们的配置:

是否有办法确定现在哪个标注器占用了更多的时间?
customAnnotatorClass.tokensregex=edu.stanford.nlp.pipeline.TokensRegexAnnotator
sutime.binders=0
tokensregex.rules= .... (省略)
ssplit.eolonly=false
customAnnotatorClass.tokenOverride_en= .... (省略)
annotators=tokenize, ssplit, tokenOverride_en, pos, lemmaOverride_en, ner, tokensregex, entitymentions, parse
language=en
tokenize.whitespace=false
customAnnotatorClass.lemmaOverride_en=.... (省略)
tokenize.options=untokenizable=allKeep,americanize=false
ssplit.isOneSentence=true
nermention.acronyms=true

mkh04yzy

mkh04yzy1#

有一个主要的管道程序,叫做StanfordCoreNLP,当它完成时,会报告每个标注器花费的时间。需要注意的是,在4.0.0版本中有一个新的分词标准,通常将单词分割成更多的标记。这可能是导致速度变慢的原因之一......

2022年11月2日,星期三下午3:31,dsbanks99 ***@***.***>写道:一个在循环中运行的单元测试,调用pipeline.annotate(document),似乎花费了大约50%的时间更长。我们的配置属性在升级过程中没有发生变化,但也许在4.5.1中添加了一些新属性?下面是我们目前的情况。有没有办法确定现在哪个标注器使用的时间更多?customAnnotatorClass.tokensregex=edu.stanford.nlp.pipeline.TokensRegexAnnotator sutime.binders=0 tokensregex.rules= ...(省略)ssplit.eolonly=false customAnnotatorClass.tokenOverride_en= ...(省略)annotators=tokenize, ssplit, tokenOverride_en, pos, lemmaOverride_en, ner, tokensregex, entitymentions, parse language=en tokenize.whitespace=false customAnnotatorClass.lemmaOverride_en=...(省略)tokenize.options=untokenizable=allKeep,americanize=false ssplit.isOneSentence=true nermention.acronyms=true — 直接回复此电子邮件,查看GitHub <#1314>上的回复,或取消订阅 < https://github.com/notifications/unsubscribe-auth/AA2AYWKT33ZMND5CBSDZK4DWGLTV7ANCNFSM6AAAAAARVSJN4I > 。您收到此邮件是因为您订阅了此线程。消息ID: ***@***.***>

相关问题