unilm [Kosmos-2] 复制论文示例的输入/提示

icnyk63a 于 2个月前发布在其他

关注(0)|答案(2)|浏览(39)

你好！首先，感谢你们在构建Kosmos-2方面所做的出色工作！
我有一些关于用于生成paper示例的提示格式的问题。
我正尝试使用修改后的演示代码直接与模型一起使用，我已经将它发布为here。我的想法是首先复制论文中的示例，然后扩展模型以进行我的研究，这将涉及使用RL对其进行微调。
我明白对于图1,我可以将其输入到模型中：
<s> <image>Embedding</image> <grounding> <phrase>It</phrase><object><patch_index_0078><patch_index_0796></object> seats next to
并且模型输出类似于“篝火”(尽管我无法让它正确生成“篝火”的边界框)。
然而，我无法得到一个可以重现图10或11中任何聊天示例的提示。我尝试了以下变体：
<s> <image>Embedding 1</image><grounding>This is a downy woodpecker. <image>Embedding 2</image><grounding><phrase>a downy woodpecker</phrase>
但是模型输出的是<object><patch_index_0032><patch_index_1007></object>,这对应于错误的鸟。
你能帮助我展示一个聊天和多张图片的提示应该是什么样的吗？

unilm

来源：https://github.com/microsoft/unilm/issues/1234

2条答案

按热度按时间

dw1jzc5e1#

你好，@bryanoliveira 。感谢你的关注！抱歉回复较晚。
你可能知道，Kosmos-2是一个生成模型，我们实际上无法控制该模型为响应中的每个名词生成边界框(也许这个问题可以在后续使用更高质量的指令调优数据时得到解决)。
然而，有一种简单的方法来获得边界框，例如：

<phrase>It</phrase><object><patch_index_0078><patch_index_0796></object> sits next to <phrase>

此外，我们在演示中启用了采样，并调整了采样参数以获取论文中的图形，就像许多其他LLM一样。
再次感谢~

赞(0）回复(0）举报 2个月前

jecbmhm32#

你好！感谢你的回复！
在提示中添加 <phrase> 是有意义的。
但是，如何在提示中正确使用多个图像？我该如何复制图10和图11中的聊天示例？
提前感谢。

赞(0）回复(0）举报 2个月前

我来回答

unilm [Kosmos-2] 复制论文示例的输入/提示

2条答案

相关问题

热门标签

最新问答