CoreNLP 不一致的XML转义字符<和>

omqzjyyz  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(52)

在公共NER demo中,我输入了文本& with"hi with 'my <<10 &lt; 10来测试XML转义(但它也适用于其他输入)。
结果很奇怪。输出中的<被正确地转义为&lt,但然后&lt;没有被转义为&amp;lt;,而是保留为&lt;:

这看起来像是一个bug。无法判断输出中的&lt;是否应该被转义为<,还是保留为&lt;
在网络演示中,'"被转义为反引号(?),而通过正常API调用运行时,这些似乎能正确地转义为&apos;&quot;。所以那里没有问题。
我尝试浏览CoreNLP源代码以了解发生了什么,但根据源代码,这种情况不应该发生,所有这些实体都应该以XML转义的形式出现。
你能告诉我实际的代码/逻辑用于XML转义输出吗?特别是对于普通API(非网络演示)版本。谢谢!

ax6ht2ek

ax6ht2ek1#

顺便说一下,当我将输出切换到"inlineXML"时,<&lt;再次正确显示:

(尽管这种输出格式可能有完全不同的代码路径)

相关问题