我正在尝试使用Cats and Dogs数据集-https://www.kaggle.com/competitions/dogs-vs-cats/data自学R(keras包)中的图像分类
但数据集是相当大的,我想工作与较少数量的图像开始-大约2000-3000,主要是为了速度,因为我有一个旧的电脑。
有没有什么方法可以直接从RStudio中将一个文件夹中的文件列表(即图像)子集并将其复制/移动到新文件夹中?手动执行此操作对于20,000个图像来说将是一场噩梦!
理想情况下,我希望以随机的方式进行子集划分,但如果失败了,我想顺序采样(例如,按照文件名的顺序)可能不会对我的结果产生太大影响。
1条答案
按热度按时间k2arahey1#
你可以在Kaggle中使用R,所以你不需要在自己的硬件上训练,也不需要下载数据集的本地副本。要从Kaggle的训练存档中提取猫和狗的平衡样本,你可以这样做:
字符串
生成目录树:
型
在本地系统上工作时,只需更新
train.zip
位置。