unilm Kosmos-1和Kosmos-2:难以复制Kosmos-1与Kosmos-2的零样本图像分类性能

e5njpo68  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(37)

描述

我正在与Kosmos-2进行研究,旨在复制Kosmos-1论文第4.7节中详细描述的“零样本图像分类带描述”任务。不幸的是,我在匹配Kosmos-1报告的性能结果方面遇到了挑战。由于没有关于此任务的Kosmos-2公开性能数据,我不确定观察到的差异是由于模型变化还是我的实现方法。

询问

  1. Kosmos-2是否对零样本图像分类任务进行了评估?如果有,我可以了解一下结果吗?
  2. 能否访问用于Kosmos-1的评估脚本或数据集,以协助基准测试工作?
  3. 在不久的将来,是否有将Kosmos-1的权重提供给公众的计划?

实验细节

为了复制研究,我创建了一个类似于Kosmos-1论文中描述的数据集,使用了Huggingface的CUB数据集。我的评估重点是啄木鸟和麻雀配对,采用来自Kosmos-1论文表11的描述。由于数据集中没有企鹅配对,因此将其排除在外。我的评估标准衡量了模型在文本生成中的准确性,其中初始物种名称与实际名称或可接受的变化相一致,并考虑了标点符号。值得注意的是,在没有描述的情况下,准确率为71.7%,而带有描述的情况下为61%,这与Kosmos-1的趋势相反。
我非常感谢您能提供的任何支持,并热切期待您的指导。

tzxcd3kk

tzxcd3kk1#

我也在测试kosmos-2的零样本推理能力,它并不像我从kosmos1论文中读到的那样有前途。您是否介意分享一下您在这个CUB数据集上的评估代码,以便我可以进行更多的零样本实验?非常感谢您。

相关问题