CoreNLP 在DefaultPaths类中,DEFAULT_KBP_TOKENSREGEX_DIR的正确路径(删除地名)

ru9i0ody  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(63)

在按照https://stanfordnlp.github.io/CoreNLP/download.html中的说明从GitHub head构建jar包时,由于在
public static final String DEFAULT_KBP_REGEXNER_CASELESS = "edu/stanford/nlp/models/kbp/english/gazetteers/regexner_caseless.tab";
这一行中存在额外的"gazetteers",导致生成的代码无法加载NER模型。

解决方法:

  1. 从HEAD构建javanlp-core.jar
    ant jar
  2. 将所有模型文件下载并添加到CLASSPATH中,但仍然无法解决问题
    export CLASSPATH="$CLASSPATH:/pathto/corenlp/javanlp-core.jar:/pathto/corenlp/stanford-corenlp-3.9.1-models.jar:/pathto/corenlp/stanford-corenlp-3.9.1-models-english.jar:/pathto/corenlp/stanford-corenlp-3.9.1-models-english-kbp.jar";
  3. 只有当我下载了stanford-corenlp-3.9.1.jar并用它替换javanlp-core.jar时,才能成功运行
    java -mx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt
    (实际上,我不得不将内存从3g提高到5g,因为3g不够;您可能还需要更改这些指令)
imzjd6km

imzjd6km1#

Hi,你试过从GitHub首页的最新模型jars吗?
https://github.com/stanfordnlp/CoreNLP
当我查看我们目前最新的模型jars时,它们有新的正则表达式规则文件的文件路径。
确保不要使用来自GitHub的代码的3.9.1版本的jars,因为它们已经过时了,不再适用于最新的代码。我们很快就会发布3.9.2版本!

相关问题