我对我的工作有疑问。我建立了一个多类分类模型,将输入图像分类为4类标签。目前,我有100,000张图片,由4类不平衡。我也有csv文件,包括文件名,类,路径的信息。我用Pandas库做了一个csv文件。现在我的计算能力,我只想测试20,000张图片。当然,这20,000张图片应该有4类图像相同的比例。在我看来,这将是很好的使用信息我的csv文件的类。但我的问题是,我不知道如何充实我的想法。所以我需要你的家伙提示。提前感谢!
1sbrub3j1#
下面是我找到的解决方案,尽管它可能不是最优的。假设每个类有5,000张图片。如果你有一个 Dataframe (csv文件),其结构如下:
>>> df filename class 0 one.png 1 1 two.png 2 . . . 99,000 name.png 4
然后,您可以使用
subdf = pd.DataFrame(columns=df.columns) class_names = df['class'].unique() n_to_sample = 20,000/len(class_names) for class_name in class_names: subdf = pd.concat([subdf,df[df['class']==class_name].sample(n=n_to_sample)])
希望这起作用了!
1条答案
按热度按时间1sbrub3j1#
下面是我找到的解决方案,尽管它可能不是最优的。假设每个类有5,000张图片。如果你有一个 Dataframe (csv文件),其结构如下:
然后,您可以使用
希望这起作用了!