unilm Kosmos-1和Kosmos-2:难以复制Kosmos-1与Kosmos-2的零样本图像分类性能

e5njpo68 于 2个月前发布在其他

关注(0)|答案(1)|浏览(37)

描述

我正在与Kosmos-2进行研究，旨在复制Kosmos-1论文第4.7节中详细描述的“零样本图像分类带描述”任务。不幸的是，我在匹配Kosmos-1报告的性能结果方面遇到了挑战。由于没有关于此任务的Kosmos-2公开性能数据，我不确定观察到的差异是由于模型变化还是我的实现方法。

询问

Kosmos-2是否对零样本图像分类任务进行了评估？如果有，我可以了解一下结果吗？
能否访问用于Kosmos-1的评估脚本或数据集，以协助基准测试工作？
在不久的将来，是否有将Kosmos-1的权重提供给公众的计划？

实验细节

为了复制研究，我创建了一个类似于Kosmos-1论文中描述的数据集，使用了Huggingface的CUB数据集。我的评估重点是啄木鸟和麻雀配对，采用来自Kosmos-1论文表11的描述。由于数据集中没有企鹅配对，因此将其排除在外。我的评估标准衡量了模型在文本生成中的准确性，其中初始物种名称与实际名称或可接受的变化相一致，并考虑了标点符号。值得注意的是，在没有描述的情况下，准确率为71.7%,而带有描述的情况下为61%,这与Kosmos-1的趋势相反。
我非常感谢您能提供的任何支持，并热切期待您的指导。

unilm

来源：https://github.com/microsoft/unilm/issues/1358