doccano 安排注解状态并按其进行过滤

r8uurelv  于 2个月前  发布在  其他
关注(0)|答案(7)|浏览(39)

目前系统不支持自动标注,但我们正在努力解决这个问题,通过导入已经包含预测注解的数据集。不幸的是,这个数据集中的所有条目都被标记为已完成。这意味着标注者无法开始工作并查看他的进度。

我认为在这样的用例中,只有在项目包含注解且经过用户审查(打开并点击下一步)时,才将其标记为已完成才有意义。在这个用例中,可能需要有一个“跳过”数据集中条目的按钮。这样就不会意外地将项目标记为已完成。

vwkv1x7d

vwkv1x7d1#

感谢您的评论。
目前,doccano支持#258中的"批准标签"功能,由@c-w提供。它允许管理员用户批准标签。因此,我们可以通过扩展它来实现您的功能。
想法:

  • 目前,User模型和Document模型之间存在一对多关系。
  • 通过将其扩展为多对多关系,一个文档可以具有多个审批信息。
  • 使用它,doccano将控制每个用户的注解状态。
vjhs03f7

vjhs03f72#

我猜你最了解如何实现这个功能,但我担心改变用户和文档模型之间的关系。因为这可能会影响文档的状态,也可能影响统计页面。你将如何区分一个文档是由一个人还是多个人批准的?
目前我喜欢这个工具的地方是它的简单性。从经验来看,注解者通常对他们的领域知识很了解,但在技术术语方面并不熟练。所以给他们提供多个按钮,一个用来标记项目为已完成(他们需要一直点击),另一个是“下一步”,可能会引起一些困惑。

zujrkrfu

zujrkrfu3#

我想要支持这个功能请求。
由于注解资源有限,我们实际上总是试图创建填充了预测预注解的数据集。这往往能显著加快实际的注解过程。我非常喜欢doccano,但在这种场景下使用它是几乎不可能的,因为当所有条目都被标记为已完成时,你永远不知道哪些条目是真正手动注解的。

ltskdhd1

ltskdhd14#

讨论点。
注解状态可能是:

  • 未注解
  • 已注解
  • 但需要确认(书签?)
  • 但未获批准
dwthyt8l

dwthyt8l5#

同时,"自动标注"和"手动标注"是不同的状态。

lawou6xi

lawou6xi6#

如果流程是:
(文档被注解员接收) -> 检查标记 -> 设置正确或错误 ->
(文档被验证员接收) -> 检查标记 -> 设置正确或错误 -> 完成。
那么可能的状态列表应该是:

  • 没有注解/有注解(如果有人仍然想要这个--你知道当没有注解的文档是正确的,例如对于NER或序列标注时,这是有缺陷的)
  • 自动注解/未注解(用于注解员输入的过滤器)
  • 没有标记为正确/标记为错误/标记为正确。(由注解员)
  • 没有验证/已验证/验证为错误(由验证员)

如果注解员也是验证员,他们可以检查“标记为完成”或“标记为完成并验证”,以在未验证时触发书签。
或者我们可以为以后回顾书签列表添加额外的个人书签。
(我还会添加一种文档优先级或子集...目前,它们可以通过具有相同标签的项目来处理,这不是很好的实现方式,但至少现在是可以实现的。)
此外,注解员需要找到已注解的文档,而验证员需要找到标记为正确但未验证的文档。
P.S.
在考虑了所有这些之后...我会将小部件分开放在不同的项目中,并为自己的过程制作自己的前端和后端--这比当前应用的“一刀切”方法要容易得多。

hof1towb

hof1towb7#

关于这个问题有什么新消息吗?我们也在使用相同问题的情况下使用预标注数据,从一开始就将所有内容标记为完成,这使得继续标注变得困难,尤其是在有多个用户的情况下。
我们现在正在使用“批准”功能,但这个功能并不理想。没有办法过滤出尚未批准的示例或直接跳到下一个未批准的示例。
同时,由于所有的统计数据都显示为已完成,所以跟踪进度也非常困难。而且从数据集视图中也无法判断一个示例是否已经批准。
如果一个示例只有在你实际添加/更改注解或将其标记为已批准时才被标记为完成,那将会非常棒。但是,能够过滤出未批准的示例将解决大多数这些问题(理想情况下,统计数据中也应该如此)。

相关问题