CoreNLP 中文分词器k-best函数

klh5stk1  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(54)

斯坦福中文分词器(Stanford Chinese Segmenter)-v3.8.0是否具有返回k最佳分割的功能?我尝试了一些类似这样的命令:

bash /stanford/segment.sh ctb input.txt.zh UTF-8 0 > output.txt
bash /stanford/segment.sh ctb input.txt.zh UTF-8 1 > output.txt
bash /stanford/segment.sh ctb input.txt.zh UTF-8 2 > output.txt

但我得到了相同的分割结果。这里有什么地方出错了吗?

hi3rlvi2

hi3rlvi21#

脚本存在一个小问题。您需要执行以下Java命令:

java -mx2g -cp ./*: edu.stanford.nlp.ie.crf.CRFClassifier -sighanCorporaDict ./data -testFile test.simp.utf8 -inputEncoding UTF-8 -sighanPostProcessing true -keepAllWhitespaces false
rkttyhzu

rkttyhzu2#

当你使用-testFile选项时,它应该将每行视为单独的句子。

相关问题