描述bug
我正在使用的模型(textdiffuser):
当我运行以下命令时,由于网络或源问题,有些图片无法下载。img2dataset --url_list=url.txt --output_folder=laion_ocr --thread_count=64 --resize_mode=no
对于尚未成功下载的图片,我们无法根据索引将它们移动到相应的文件夹中。
在训练数据集时,我需要删除没有图片的文件夹以确保符合以下结构吗?
├── 28330/
│ ├── 283305839/
│ │ ├── caption.txt
│ │ ├── charseg.npy
│ │ ├── image.jpg # Is it necessary during training?
│ │ ├── info.json
├── ├── └── ocr.txt
你能帮我吗?非常感谢。
2条答案
按热度按时间ffdz8vbo1#
+1
bksxznpy2#
如果文件夹不包含图片,请删除。