argilla 接受同一记录的多个预测/注解

bqujaahr  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(39)

简介

目前,记录注解/预测仅支持为一个标注代理存储标注信息。想法是支持多个代理,包括注解和预测。此更改将带来一些功能增强,如注解一致性流程弱标签实现多管道监控等。
如果我们将此功能与角色和数据集设置相结合,可以给予更多的注解/预测控制。通过定义一组标注器(甚至预期的预测器模式),我们可以限制能够标注数据集的代理数量。

设计关键点

所提出的设计保留了 prediction/annotation 字段,并添加了一个新的 predictions/annotations 字段,一个数据字典,其中键对应于标注代理,值包括客户端提供的注解信息。

predictions = { “agent-one” : { “labels”: [“A”], “score”: [“0.3”] } }

此新结构将启用搜索,提供一种基于特定标注器/预测器的微调搜索机制。我们可以复制所有计算字段的每个注解条目,因此我们可以执行诸如:
annotations.agentA.annotated_as: FALSEpredictions.agent_b.predicted_as: TRUE

向后兼容性

新的数据模型必须处理当前记录概念,并提供一种向后兼容方法,使两种模式都可用。
当前字段,如 predictedpredicted_asannotated_as 可能会改变行为,因为可以分配多个值。唯一应该保持旧行为的情况应该是只提供一个条目时。
受影响字段的完整列表:

  • predicted : 仅在定义一个代理时计算。将在未来的版本中弃用和删除
  • predicted_as : 仅在定义一个代理时计算。将在未来的版本中弃用和删除
  • annotated_as : 仅在定义一个代理时计算。将在未来的版本中弃用和删除
  • predicted_by : 显示所有记录代理
  • annotated_by : 显示所有记录代理
  • scores : 仅在定义一个代理时计算(cc: @dvsrepo)。将在未来的版本中弃用和删除
  • prediction : 此字段将在未来的版本中弃用和删除
  • annotation : 此字段将用作“最终/真实注解”(注解一致性)。也许在未来的版本中有更好的命名。
  • explanation : (仅适用于文本分类)仅在定义一个代理时计算。将在未来的版本中弃用和删除。必须在预测级别定义解释。
  • 标记分类指标:已为注解和预测定义了一些指标。也许没有必要构建所有代理指标,但这些字段将完全受到新数据模型的影响。

参考文献

参见 recognai/rubrix-roadmap#59

klh5stk1

klh5stk11#

在关闭此问题之前,还有一些任务需要完成:

  • 允许带有多个注解/预测的日志记录
  • 处理来自UI的多个注解(查看、选择、删除、更改等)
  • 适应相关的过滤器(后端和UI)
  • 当存在多个值时,适应预测的正确/错误定义。
nkoocmlb

nkoocmlb2#

这是否也能解决标记分类的问题,即搜索一个'word'时,使用'annotated_as'返回的结果中,该'word'不是'selected tag',而是所有涉及该单词和标签(在另一个单词上)的结果?

相关问题