CoreNLP 如何获取NE位置(字符偏移量)所指的句子？

StanfordCoreNLP服务器的第316行：
text = URLDecoder.decode(text, encoding).trim();
这导致了前导换行符丢失。此外，请确保对您的请求进行编码，为了让它正常工作，我不得不发出这样的请求：
wget --post-data '%0AI love%0A%0A New York!' 'localhost:9000/?properties={"outputFormat":"json"}' -O -
目前，如果您的请求没有前导空格或换行符，它应该可以正常工作。我可能会将那一行更改以解决问题，但我不确定为什么最初会删除前导内容，所以我不确定更改它会破坏什么。

赞(0）回复(0）举报 5个月前

nc1teljy4#

谢谢，@J38 !
让我进一步详细说明一下问题。

背景

我想要得到两样东西：

命名实体(NE)的位置(characterOffsetBegin & characterOffsetEnd),以及
NE位置所指的完整句子(理想情况下，这是输入的原始句子，或者是其他版本)

问题

我对观察到的命名实体位置与实际NE位置不匹配的问题进行了进一步调查。
似乎有两个问题阻止我获得与NE位置对应的句子。

句子开头的所有空白字符(" ","

",...)在计算NE位置之前会被修剪。一个句子 "
Samsung is a company." 会被处理成 "Samsung" 从偏移量零开始 - 尽管句子开头有 "
"。

通常，句子内的空白字符不会被处理。这是可以的。特别是，这些空白字符可以在tokens的"before"和"after"字符中找到。这样我就可以重构句子。
然而，如果两个单词之间只用换行符(

)分隔，那么tokens的"before"和"after"字符会存储"
",但characterOffsets将"
"视为长度为零。这使得很难重构与NE位置对应的句子。
我不是Maven。所以请随意指出显而易见的事情。我可能只是犯了一个小错误。

可能的处理方法及其后续问题

我考虑了很多处理方法。但它们都有自己的问题。

如果我在将其输入Stanford管道之前先自己删除空白，我就永远无法确定我以正确的方式处理空白(即Stanford管道将以相同的方式处理它)。此外，如果两个单词之间只用换行符(

)分隔，我必须确保用一些空白替换它。

如果我尝试通过将所有tokens重新连接在一起(在它们之间插入它们的"before"或"after"字符)来重构句子，那么我会遇到这样的问题："

"字符会破坏NE位置。也就是说，如果出现在"after"或"before"字段中的"
",我需要将其替换为无内容。

赞(0）回复(0）举报 5个月前

lvmkulzt5#

示例1

示例2

赞(0）回复(0）举报 5个月前

c7rzv4ha6#

我不确定哪种行为是正确的。
我真正需要的是命名实体的位置和一个句子(理想情况下，是原始的句子),它们对应于这些命名实体的位置。只有这样，我才能在文本中高亮显示命名实体或将它们掩盖起来，以便在句子上执行一些监督关系提取。
理想情况下，我不需要自己动手，并尝试复制斯坦福核心NLP内部所做的工作。因为我可能会犯错误，无法完美地复制它。
理想情况下，有一个额外的字段，输出NER实际上考虑的“转换后的”句子。或者NER会输出指向原始句子的NE位置，就像它被提供的那样。

赞(0）回复(0）举报 5个月前

我来回答

CoreNLP 如何获取NE位置(字符偏移量)所指的句子？

6条答案

示例1

示例2

相关问题

热门标签

最新问答