ludwig 将数据拆分信息单独输出为一个文件,即splits.csv,与预处理后的数据分开,

2uluyalo  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(34)

目前,我们不会将原始数据拆分写入单独的文件,即(行号,拆分编号)。
当预处理数据过大无法写入磁盘时,这可能会有用。然而,用户可能仍然希望离线检查他们的数据集中哪些行被用于他们的建模运行中的哪些数据子集。
这种元数据的潜在位置之一可能是现有的 training_set_metadata.json 文件,或者可能是一个单独的 splits.csv 文件。

kh212irz

kh212irz1#

当我们在这里写skip_saved_processed_inputs=False信息时,实际上我们确实会写这些信息。请注意,这只适用于我们从文件中使用的数据集,而不是数据框。因此,它可能可以扩展以支持后者。

kzmpq1sx

kzmpq1sx2#

@tgaddair 啊,感谢你的提醒!我们应该确保在文档中包含这个信息。

相关问题