keras 如何在自己的数据集中制作和训练自定义数据集?

yx2lnoni  于 2022-11-24  发布在  其他
关注(0)|答案(1)|浏览(246)

我对我的工作有疑问。
我建立了一个多类分类模型,将输入图像分类为4类标签。
目前,我有100,000张图片,由4类不平衡。我也有csv文件,包括文件名,类,路径的信息。我用Pandas库做了一个csv文件。
现在我的计算能力,我只想测试20,000张图片。当然,这20,000张图片应该有4类图像相同的比例。
在我看来,这将是很好的使用信息我的csv文件的类。但我的问题是,我不知道如何充实我的想法。所以我需要你的家伙提示。
提前感谢!

1sbrub3j

1sbrub3j1#

下面是我找到的解决方案,尽管它可能不是最优的。假设每个类有5,000张图片。如果你有一个 Dataframe (csv文件),其结构如下:

>>> df

       filename  class
0       one.png      1
1       two.png      2
.
.
.
99,000 name.png     4

然后,您可以使用

subdf = pd.DataFrame(columns=df.columns)
class_names = df['class'].unique()
n_to_sample = 20,000/len(class_names)

for class_name in class_names:
    subdf = pd.concat([subdf,df[df['class']==class_name].sample(n=n_to_sample)])

希望这起作用了!

相关问题