CoreNLP 解析 '`'

mgdq6dx1  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(40)

给我:

{
  "sentences": [
    {
      "index": 0,
      "tokens": [
        {
          "index": 1,
          "word": "`",
          "originalText": "`",
          "lemma": "`",
          "characterOffsetBegin": 0,
          "characterOffsetEnd": 1,
          "pos": "``",
          "before": "",
          "after": ""
        }
      ]
    }
  ]
}

使用标准英语模型。这是预期的吗?我对POS特别惊讶。

bttbmeg0

bttbmeg02#

好的,说实话,我一开始并不完全清楚这个问题是关于服务器接口的还是关于模型结果的,所以我忽略了它几天。回想起来,我意识到你的主要问题是关于POS标签的,但我认为这是意料之中的行为。PTB数据集将曲线的开放引号“”转换为带有标签,而`在数据集中没有出现过,但看起来有点像,所以就出现了这种情况。EWT更进一步,甚至有一些单独的反引号被标记为。因此,我们返回的标签正是数据教会模型使用的标签。

2022年11月3日星期四晚上10点46分,Anton Melser ***@***.***>写道:使用4.5.1版本——直接回复此邮件,查看GitHub上的讨论(#1315),或取消订阅< https://github.com/notifications/unsubscribe-auth/AA2AYWOCJ26RFATG7WH4KULWGSPMBANCNFSM6AAAAAARW2VKSY >。你收到这封邮件是因为你订阅了这个线程。消息ID:***@***.***>

33qvvth1

33qvvth13#

谢谢。我承认我不太理解标签是如何设置的(它们是特定于模型的吗?例如,中国PKU和CTB可能是不同的?)。

我在代码中进行了搜索,并在看起来像模板文件的地方找到了一个列表。它包含了应该属于TB标签的内容(我在其他地方找到的内容加上标点符号标签),以及“网络扩展”,如果我理解正确的话。还有一些其他标签来自另一个集合,但我不知道它们是否在任何地方使用过。我想如果它们是特定于模型的,那么甚至没有必要在网站上列出标签?

smtd7mpg

smtd7mpg4#

老实说,我们过去有各种标签集的文档,但我不确定在更新一些模型以使用UD标签集后,我们是否仍然可以获得这些文档。如果你不介意的话,我会将这个问题留待以后解决,提醒大家更新文档。

cvxl0en2

cvxl0en25#

同意这个根据规范执行,考虑到英语宾州树库的历史使用情况,其中用于开放引号,所有开放引号包括、“等都得到POS标签

相关问题