CoreNLP POS标记错误

ctrmrzij  于 2个月前  发布在  其他
关注(0)|答案(7)|浏览(45)

由于算法和训练数据的限制,词性标注的统计模型并不完美。我们应该利用这个线程来整理用户识别出的错误。

xuo3flqw

xuo3flqw1#

以下是文本内容的翻译结果:

一些由@jeffrschneider提出的问题:
[#578](https://github.com/stanfordnlp/CoreNLP/issues/578)
 [#580](https://github.com/stanfordnlp/CoreNLP/issues/580)
 [#656](https://github.com/stanfordnlp/CoreNLP/issues/656)
 [#675](https://github.com/stanfordnlp/CoreNLP/issues/675)
i34xakig

i34xakig2#

关于词性标注的问题:
#576
#597
#610

wsxa1bj1

wsxa1bj13#

关于词性标注的问题:
#575

mcdcgff0

mcdcgff04#

关于这个问题的任何更新吗?在StanfordNLP中解决了这些问题吗?

llew8vvj

llew8vvj5#

我注意到在"Victoria lives in Vancouver. She likes apples."这句话中,指代消解失败。>> corefs: {}

Sent  index WORD             LEMMA            POS              (Regex)NER     
   0  1     Victoria         Victoria         NNP              CITY           
   0  2     lives            live             VBZ              O              
   0  3     in               in               IN               O              
   0  4     Vancouver        Vancouver        NNP              CITY           
   0  5     .                .                .                O              
   1  1     She              she              PRP              O              
   1  2     likes            like             VBZ              O              
   1  3     apples           apple            NNS              O              
   1  4     .                .                .                O

指代消解成功的情况是"Victoria lived in Vancouver. She likes apples." >> corefs: "She" --> "Victoria"

Sent  index WORD             LEMMA            POS              (Regex)NER     
   0  1     Victoria         Victoria         NNP              PERSON         
   0  2     lived            live             VBD              O              
   0  3     in               in               IN               O              
   0  4     Vancouver        Vancouver        NNP              CITY           
   0  5     .                .                .                O              
   1  1     She              she              PRP              O              
   1  2     likes            like             VBZ              O              
   1  3     apples           apple            NNS              O              
   1  4     .                .                .                O

Live 可以是一个动词( lives in | lived in ),一个形容词( live performance )或者一个名词( our lives matter )。因此,我最初认为错误识别动词(甚至是动词时态)是导致指代消解问题的原因(上面的问题)--但是查看标签(上面),我意识到实际上这是一个命名实体识别(NER)问题。
在这里,我通过RegexNER对NER进行微调,从而实现更强大的指代消解(在每种情况下,将"She"替换为"Victoria")。

juud5qan

juud5qan6#

当然,这并不是理想的情况,但我也能理解为什么会发生这种情况。维多利亚市位于温哥华岛上,而训练数据中经常出现的维多利亚和温哥华的位置,所以在一个句子中提到维多利亚和温哥华会看起来非常像一个城市...。

周二,2020年2月25日,下午7:45 Victoria Stuart ***@***.***>写道:我注意到在“Victoria lives in Vancouver. She likes apples.”这句话中,指代消解失败。>> corefs: {} 发送索引 单词 词元 词性(正则表达式)命名实体识别 0 1 Victoria Victoria NNP 城市 0 2 lives live VBZ O 0 3 in in IN O 0 4 Vancouver Vancouver NNP 城市 0 5 ... O 1 1 She she PRP O 1 2 likes like VBZ O 1 3 apples apple NNS O 1 4 ... O 指代消解成功地作用于“Victoria lived in Vancouver. She likes apples.”这句话上,corefs: "She" --> "Victoria"。发送索引 单词 词元 词性(正则表达式)命名实体识别 0 1 Victoria Victoria NNP 人名 0 2 lived live VBD O 0 3 in in IN O 0 4 Vancouver Vancouver NNP 城市 0 5 ... O 1 1 She she PRP O 1 2 likes like VBZ O 1 3 apples apple NNS FRUIT 1 4 ... O “您收到此邮件是因为您订阅了此线程。直接回复此邮件,查看GitHub <#680?email_source=notifications&email_token=AA2AYWO7CRBOZ2Q66YPEJ3LREXQUVA5CNFSM4E3SSKUKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEM6VYFQ#issuecomment-591223830>,或者取消订阅 < https://github.com/notifications/unsubscribe-auth/AA2AYWOLD6MZGD5LXVBZL2LREXQUVANCNFSM4E3SSKUA >。”

9jyewag0

9jyewag07#

在句子"Jennifer has the prettiest antennae"中,"antennae"被标记为"NN",而不是"NNS"。

相关问题