你好👋,
请查看以下提供的示例。这些示例使用corenlp.run进行了处理。词性标注器和指代标注器(命名实体识别)通常在处理非凡名称时会失败。特别是,词性标注器在将名称识别为名词方面经常失败,即使句子以名称开头。
我在想,这是否与通用词性标签有关。对于较小的标签集,可能更难分配正确的标签。我过去没有看到过使用更精细的标签集时的这种词性标注错误。
Sue对参加驾驶考试感到紧张。她喜欢苹果。Sue
被归类为VB
,但未被识别为提及。因此,Sue
和She
未Map到相同的指代链。
Lira非常兴奋地见到了她最喜欢的说唱歌手。她在音乐会后有后台通行证。Lira
被正确地归类为NN
,但未被识别为提及。
Coy需要新的运动鞋。她去了商店并检查了他们的选择。Coy
被归类为JJ
,因此也未被识别为提及。
Sunny和她的家人一起去了一个村庄。她喜欢苹果。Sunny
再次被归类为JJ
,且未被识别为提及。
2条答案
按热度按时间3b6akqbq1#
感谢您指出这些错误案例,我们将进一步深入研究。我实际上正在为工具包开发一个新的词性标注器和命名实体识别器,因此希望这些问题能够得到解决!
djp7away2#
你计划很快发布新的标注器吗?顺便说一句,这里有一个具有挑战性的句子:
她送给他一份礼物。
当前的POS标注器将标记
present
为形容词,但实际上在这个上下文中它是一个名词。也许你的新实现也能够解决这个问题。