CoreNLP 在标记时,无法忽略XML标签,

jqjz2hbq  于 4个月前  发布在  其他
关注(0)|答案(2)|浏览(52)

亲爱的大家,

我正在处理很多包含XML标签的文件进行词性标注。到目前为止,所有内容都被标注了,甚至包括XML标签,这并不是我想要的结果。似乎没有选项可以告诉标注器忽略这些XML标签。将来有实现这个功能的方法吗?

谢谢。

i2loujxw

i2loujxw1#

你目前可以选择使用cleanxml标注器删除所有XML标签。但我同意,目前没有选项可以保留标签但忽略它们,尽管我能理解这是一种有效的用例,例如在处理带有XML标记的文本时。
老实说,我认为除非有人愿意接手,否则不太可能实现这个功能。它并不在我们要做的事情清单的优先级上。

lhcgjxsq

lhcgjxsq2#

感谢您的回复。我刚刚决定使用sed从xml元素中删除标签:sed -i -e 's/^(<[^>]>)./\1/' *.conll,但我肯定会检查cleanxml annotator。2018年11月20日,18:58,Christopher Manning <notifications@github.commailto:notifications@github.com>写道:您目前可以选择使用cleanxml annotator删除所有XML标签。但我同意,目前没有选项可以保留标签但忽略它们,尽管我知道这是一种有效的用例,例如在处理标记了XML文本时。老实说,我认为除非有人愿意接手,否则不太可能实现。这并不在我们要做的事情清单上。—您收到此邮件是因为您发起了这个主题。直接回复此邮件,查看GitHub上的讨论<#738 (comment)>,或者静音该主题< https://github.com/notifications/unsubscribe-auth/AHLqiZGJmton30umh0HkIwLK3mKRhBTTks5uxELXgaJpZM4VDNxH >。

相关问题