CoreNLP 对于HTML标签，invertible是不正确的,

brvekthn 于 2个月前发布在其他

关注(0)|答案(4)|浏览(51)

我不确定这是否是预期的行为，但对我来说似乎很奇怪。
使用基本选项集
-annotators tokenize,cleanxml,ssplit,pos,lemma
解析句子
This is a test sentence.
输出结果为

{
  "sentences": [
    {
      "index": 0,
      "tokens": [
        {
          "index": 1,
          "word": "This",
          "originalText": "This",
          "lemma": "this",
          "characterOffsetBegin": 0,
          "characterOffsetEnd": 4,
          "pos": "DT",
          "before": "",
          "after": " "
        },
        {
          "index": 2,
          "word": "is",
          "originalText": "is",
          "lemma": "be",
          "characterOffsetBegin": 5,
          "characterOffsetEnd": 7,
          "pos": "VBZ",
          "before": " ",
          "after": " "
        },
        {
          "index": 3,
          "word": "a",
          "originalText": "a",
          "lemma": "a",
          "characterOffsetBegin": 8,
          "characterOffsetEnd": 9,
          "pos": "DT",
          "before": " ",
          "after": "  <b>"
        },
        {
          "index": 4,
          "word": "test",
          "originalText": "test",
          "lemma": "test",
          "characterOffsetBegin": 13,
          "characterOffsetEnd": 17,
          "pos": "NN",
          "before": " <b>",
          "after": "</b>"
        },
        {
          "index": 5,
          "word": "sentence",
          "originalText": "sentence",
          "lemma": "sentence",
          "characterOffsetBegin": 22,
          "characterOffsetEnd": 30,
          "pos": "NN",
          "before": "</b> ",
          "after": ""
        },
        {
          "index": 6,
          "word": ".",
          "originalText": ".",
          "lemma": ".",
          "characterOffsetBegin": 30,
          "characterOffsetEnd": 31,
          "pos": ".",
          "before": "",
          "after": ""
        }
      ]
    }
  ],
  "sections": [
  ]
}

对于索引 #3 ,之后元素是 " "(两个空格)。前一个字符偏移量是9,当前的是13,这意味着之后元素应该是4个字符，而不是5个。
同样地，对于索引 #5 ,之前元素应该是5个字符，而不是4个，以匹配字符偏移量。
在版本4.3.1中进行测试。

CoreNLP

来源：https://github.com/stanfordnlp/CoreNLP/issues/1210