camel [Feature Request] MultimodalPrompt

wswtfjt7 于 10个月前发布在其他

关注(0)|答案(6)|浏览(181)

必需的先决条件

我搜索了 Issue Tracker 和 Discussions ,但尚未报告。如果已经报告过，请在那里加1或评论。
建议首先在一个 Discussion 中提问。

动机

为了实现代理的多模态感知，我们需要在第一阶段有一个灵活的多模态提示类。
该类应具有以下基本功能：

能够添加新的模态。
从人类可读格式转换为机器可读格式。
易于保存和在不同代理之间传输。
我愿意添加这个功能。

解决方案

提示可以采用以下形式：
Listen to this audio {audio} and see the image {image} to describe the scene.
我建议使用 base64 编码来存储所有模态信息。

替代方案

无响应*

其他上下文

无响应*

camel

来源：https://github.com/camel-ai/camel/issues/317

6条答案

按热度按时间

5ssjco0h1#

感谢@chenllliang.这是一个很好的主意！有没有关于以这种方式实现MultimodalPrompt的参考资料？

赞(0）回复(0）举报 10个月前

jogvjijk2#

你好，这个设计灵感来自于当前多模态LLM(如MMICL和MiniGPT5)的进展，它们支持交错的文本和图像作为输入。多模态信息可以在提示的不同位置出现(对于大多数当前的VLM来说，在提示的开头)。MultimodalPrompt 类可以根据不同的多模态LLM示例化，例如：

对于MMICL,输入提示包括图像ID和参考信息

1. Interleaved Image-Text Data
Input:  Image 0 is <image0> {image 0}
        ...
        Image j is <imagej> {image j}
        {question}
MMICL:  {answer}
2. In−Context Demonstration Data
Input:  Image 0 is <image0> {image 0}.
        {question} 
        {answer} 
        ...
        Image j is <imagej> {image j}.
        {question} 
MMICL:  {answer}