argilla [FEATURE] Merging FeedbackDatasets

k4aesqcs  于 3个月前  发布在  其他
关注(0)|答案(3)|浏览(82)

您的功能请求是否与问题相关?请描述。

我正在使用多个标注器,并为它们分配了不同的工作区。这导致了多个 FeedbackDataset 进行聚合。我想查看 IAA,但根据文档,这些指标仅在一个对象上操作。

描述您希望的解决方案

一种将多个数据集合并为一个的方法将允许用户在上述情况下直接使用内置的指标。

描述您考虑过的替代方案

我通过将数据集转换为 Huggingface 格式来解决这个问题,合并这些数据集,提取配置文件,然后将其推送到 Huggingface Hub。使用 FeedbackDataset.from_huggingface() 将产生所需的单个对象。从长远来看,这相当繁琐,因为它需要为每个聚合将数据推送到和从中心获取。

附加上下文

7d7tgy0s

7d7tgy0s1#

你好@mpjuhasz
感谢功能建议。这听起来是个很酷的想法。我有一个问题:

  • 我是否也可以将数据集A的记录合并到数据集B?
  • 如果数据集A具有与数据集B不同的属性,您期望的行为是什么?

此外,我们目前正在进行SDK的主要版本发布,beta版。在这个版本(2.0)中,如果它们的模式兼容,就可以将一个数据集的记录添加到另一个数据集中。例如:

import argilla_sdk as rg

client = rg.Argilla(
    api_url="https://argilla.example.com",
    api_key="my_token",
)

dataset_a = client.datasets("dataset_a") # get the datasets from the argilla server
dataset_b = client.datasets("dataset_b") # get the datasets from the argilla server

dataset_a.records.log(list(dataset_b.records)) # add the records of dataset b to dataset a

我们将在本月底推出一个新版本的blog post

gg0vcinb

gg0vcinb2#

你好,@burtenshaw,

感谢你的快速回复!我对这些问题的想法是:

  • 当然:我一直在使用我的HF解决方法,合并记录给了我在这里需要的东西(类似于concatenate_dataset的HF功能)
  • 我只会期望在兼容的数据集上使用这个功能,所以在那些情况下抛出错误对我来说是有意义的。

期待那个发布🙌

xsuvu9jc

xsuvu9jc3#

@mpjuhasz 很好。考虑到这一点,2.0版本应该能解决您的用例。如果您想提前尝试实验版,请告诉我。

相关问题