在按照https://stanfordnlp.github.io/CoreNLP/download.html中的说明从GitHub head构建jar包时,由于在
public static final String DEFAULT_KBP_REGEXNER_CASELESS = "edu/stanford/nlp/models/kbp/english/gazetteers/regexner_caseless.tab";
这一行中存在额外的"gazetteers",导致生成的代码无法加载NER模型。
解决方法:
- 从HEAD构建javanlp-core.jar
ant jar - 将所有模型文件下载并添加到CLASSPATH中,但仍然无法解决问题
export CLASSPATH="$CLASSPATH:/pathto/corenlp/javanlp-core.jar:/pathto/corenlp/stanford-corenlp-3.9.1-models.jar:/pathto/corenlp/stanford-corenlp-3.9.1-models-english.jar:/pathto/corenlp/stanford-corenlp-3.9.1-models-english-kbp.jar"; - 只有当我下载了stanford-corenlp-3.9.1.jar并用它替换javanlp-core.jar时,才能成功运行
java -mx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt
(实际上,我不得不将内存从3g提高到5g,因为3g不够;您可能还需要更改这些指令)
1条答案
按热度按时间imzjd6km1#
Hi,你试过从GitHub首页的最新模型jars吗?
https://github.com/stanfordnlp/CoreNLP
当我查看我们目前最新的模型jars时,它们有新的正则表达式规则文件的文件路径。
确保不要使用来自GitHub的代码的3.9.1版本的jars,因为它们已经过时了,不再适用于最新的代码。我们很快就会发布3.9.2版本!