doccano 命名实体识别

svmlkihl  于 5个月前  发布在  其他
关注(0)|答案(6)|浏览(76)

对我来说,非常重要的是Doccano的命名实体链接(NEL)不仅仅是命名实体识别(NER)。为此,必须能够从知识库中链接到特定实体,就像INCEpTION所做的那样。

twh00eeo

twh00eeo1#

你会写你的环境吗?谢谢!

2exbekwf

2exbekwf2#

看起来在improvement ideasproject boards中没有相关内容。我在我的分支中有可用的实体链接,但它与我公司的实体链接解析器和词典绑定在一起。

sc4hvdpw

sc4hvdpw3#

为了实现这个功能,我认为我们需要创建一个机制,以某种格式(例如id、标题)上传知识库并实时提出建议。

yrefmtwq

yrefmtwq4#

对不起,我的回复晚了。我建议将这个功能分为两个子步骤来实现。

  1. 最低要求是能够捕获URI以链接到本体中的相应实体。在第一步中,可以通过手动添加URL或复制粘贴来实现。在用户界面中,应该有一个相应的字段。必须能够输入多个URI。例如,在我目前正在进行的一个项目中,对于每个实体都有引用私有本体和(如果可能的话)公共本体的要求。现在的问题是如何最好地将标识符集成到Doccano Jsonl格式中?一个建议是扩展标签如下:
{"text": "Douglas Adams", "lables": [{0, 13, "person", "https://www.wikidata.org/wiki/Q42"}]}

其他建议?我认为实现这个功能的部分相对容易,并且会带来巨大的价值。我相信还有其他人在做NEL任务😄

  1. 在第二部分中,可以实现知识库的上传和使用。我建议用户可以将他的知识库作为NIF文件上传。这得到了许多命名实体链接引擎的支持,如dbpedia-spotlight。现在可以使用这样的现有命名实体链接引擎自动向用户提供建议。
gt0wga4j

gt0wga4j5#

你是对的。第一步是快速实现:

  • 将模型添加到后端
  • 新的项目类型实体链接
  • 新的标签类型实体链接作为自由文本字段
  • 迁移数据库
  • 构建前端
  • 目标:为选定的文本打开一个文本输入框,并将其保存在建议的数据结构中
  • 与序列标注类似,因此可以复制和更改开放菜单,并更改输入机制
  • 点击链接会打开一个新的实体URL标签页

但是基于此的功能很快就会变得复杂。有几点需要考虑:

  • 存储实体:应该存储哪些内容(链接、标签、类别、描述等)。
  • 在标记时应该在菜单中显示什么?
  • 自动补全
  • 建议的数量
  • 不足的建议是否仍然可以通过自由文本进行纠正
  • 如何确保快速访问所有实体的数据库
  • 是否可以连接外部数据库/服务?如果可以,如何实现(REST、代理等)
70gysomp

70gysomp6#

为这个功能点赞。与每个标记跨度关联的通用免费文本字段就足以满足我们的需求。

相关问题