unilm textdiffuser download images error

uujelgoq  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(42)

描述bug

我正在使用的模型(textdiffuser):
当我运行以下命令时,由于网络或源问题,有些图片无法下载。
img2dataset --url_list=url.txt --output_folder=laion_ocr --thread_count=64 --resize_mode=no
对于尚未成功下载的图片,我们无法根据索引将它们移动到相应的文件夹中。
在训练数据集时,我需要删除没有图片的文件夹以确保符合以下结构吗?

├── 28330/
│   ├── 283305839/            
│   │   ├── caption.txt      
│   │   ├── charseg.npy       
│   │   ├── image.jpg   # Is it necessary during training?
│   │   ├── info.json         
├── ├── └── ocr.txt

你能帮我吗?非常感谢。

相关问题