unilm [Kosmos-2] 复制论文示例的输入/提示

icnyk63a  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(39)

你好!首先,感谢你们在构建Kosmos-2方面所做的出色工作!
我有一些关于用于生成paper示例的提示格式的问题。
我正尝试使用修改后的演示代码直接与模型一起使用,我已经将它发布为here。我的想法是首先复制论文中的示例,然后扩展模型以进行我的研究,这将涉及使用RL对其进行微调。
我明白对于图1,我可以将其输入到模型中:
<s> <image>Embedding</image> <grounding> <phrase>It</phrase><object><patch_index_0078><patch_index_0796></object> seats next to
并且模型输出类似于“篝火”(尽管我无法让它正确生成“篝火”的边界框)。
然而,我无法得到一个可以重现图10或11中任何聊天示例的提示。我尝试了以下变体:
<s> <image>Embedding 1</image><grounding>This is a downy woodpecker. <image>Embedding 2</image><grounding><phrase>a downy woodpecker</phrase>
但是模型输出的是<object><patch_index_0032><patch_index_1007></object>,这对应于错误的鸟。
你能帮助我展示一个聊天和多张图片的提示应该是什么样的吗?

dw1jzc5e

dw1jzc5e1#

你好,@bryanoliveira 。感谢你的关注!抱歉回复较晚。
你可能知道,Kosmos-2是一个生成模型,我们实际上无法控制该模型为响应中的每个名词生成边界框(也许这个问题可以在后续使用更高质量的指令调优数据时得到解决)。
然而,有一种简单的方法来获得边界框,例如:

<phrase>It</phrase><object><patch_index_0078><patch_index_0796></object> sits next to <phrase>

此外,我们在演示中启用了采样,并调整了采样参数以获取论文中的图形,就像许多其他LLM一样。
再次感谢~

jecbmhm3

jecbmhm32#

你好!感谢你的回复!
在提示中添加 <phrase> 是有意义的。
但是,如何在提示中正确使用多个图像?我该如何复制图10和图11中的聊天示例?
提前感谢。

相关问题