unilm 关于MARIO-LAION数据集的疑问

rt4zxlrg  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(49)

描述

我使用的模型是TextDiffuser:
在MARIO-LAION数据集中,我发现有一些索引号以"50001"开头,但在元信息(40G)文件中没有找到相应的子文件夹。

6za6bjd0

6za6bjd01#

同样的疑问。
同时,数据准备请求
请按照mario-laion-index-url.txt将每个图像移动到相应的文件夹。
然而,mario-laion-index-url.txt包含索引URL对,而使用img2dataset下载的图像(仅在JSON文件中)只有URL。
我们应该只使用URL来匹配图像和索引吗?

wkyowqbh

wkyowqbh2#

你好,还有一个问题。我之前下载了laion-ocr.zip,但现在似乎更新成了laion-ocr-new.zip,大小似乎有些不同。这次更新的具体内容是什么?是否有什么明显的影响?

0g0grzrc

0g0grzrc3#

我也对此有同样的疑问。编号为50001的混乱是什么原因?有什么方法可以解决吗?希望作者能提供一个明确的答复。

相关问题