pytorch sklearn.model_selection.train_test_split和torch.utils.data.random_split之间的区别是什么？

iyr7buue 于 2023-01-20 发布在其他

关注(0)|答案(1)|浏览(193)

我正在使用transformer执行语音分类任务。
我使用了两种方法将my_dataset分割成训练集和测试集。
第一个是torch.utils.data.random_split：

train_len = int(0.9 * len(my_dataset))

lengths = [train_len , len(my_dataset) - train_len]

train_set, valid_set = random_split(my_dataset, lengths)

第二个是sklearn.model_selection.train_test_split：

train_set, valid_set = train_test_split(my_dataset, test_size=0.1)

我试过很多次，用第一种方法，准确率都是60%，但用第二种方法，准确率只有55%。
那么sklearn.model_selection.train_test_split和torch.utils.data.random_split之间的区别是什么呢？

这两种方法只是数据集的划分方式不同，其他方法相同。

pytorch

1条答案

这可能是不同的拆分。拆分90：10的方法有很多。如果数据集不够大，则准确性将取决于实际拆分。您可以比较拆分的条目。