camel [Feature Request] MultimodalPrompt

wswtfjt7  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(49)

必需的先决条件

动机

为了实现代理的多模态感知,我们需要在第一阶段有一个灵活的多模态提示类。
该类应具有以下基本功能:

  1. 能够添加新的模态。
  2. 从人类可读格式转换为机器可读格式。
  3. 易于保存和在不同代理之间传输。
    我愿意添加这个功能。

解决方案

提示可以采用以下形式:
Listen to this audio {audio} and see the image {image} to describe the scene.
我建议使用 base64 编码来存储所有模态信息。

替代方案

  • 无响应*

其他上下文

  • 无响应*
5ssjco0h

5ssjco0h1#

感谢@chenllliang.这是一个很好的主意!有没有关于以这种方式实现MultimodalPrompt的参考资料?

jogvjijk

jogvjijk2#

你好,这个设计灵感来自于当前多模态LLM(如MMICL和MiniGPT5)的进展,它们支持交错的文本和图像作为输入。多模态信息可以在提示的不同位置出现(对于大多数当前的VLM来说,在提示的开头)。MultimodalPrompt 类可以根据不同的多模态LLM示例化,例如:

  1. 对于MMICL,输入提示包括图像ID和参考信息
1. Interleaved Image-Text Data

Input:  Image 0 is <image0> {image 0}
        ...
        Image j is <imagej> {image j}
        {question}

MMICL:  {answer}

2. In−Context Demonstration Data

Input:  Image 0 is <image0> {image 0}.
        {question} 
        {answer} 
        ...
        Image j is <imagej> {image j}.
        {question} 

MMICL:  {answer}

不同的VLM处理多模态信息的方式不同,MultimodalPrompt 应该具有适应不同模型的灵活性。

u4dcyp6a

u4dcyp6a3#

感谢您的解释!我认为这是有前景的(尽管我不知道gpt-4v是否是这样做的)。请随时提交拉取请求。如果您愿意,也很高兴进一步讨论。

pw136qt2

pw136qt24#

我也不知道,哈哈,但是从gpt4-v提供给用户的接口来看,gpt4-v似乎只是简单地将图像和文本连接起来。

n8ghc7c1

n8ghc7c15#

我猜他们也会对图片进行编号。我尝试上传多张图片并询问第一张和第二张是什么。它确实按预期工作。

7gs2gvoe

7gs2gvoe6#

感谢提供的信息。

相关问题