必需的先决条件
- 我搜索了 Issue Tracker 和 Discussions ,但尚未报告。如果已经报告过,请在那里加1或评论。
- 建议首先在一个 Discussion 中提问。
动机
为了实现代理的多模态感知,我们需要在第一阶段有一个灵活的多模态提示类。
该类应具有以下基本功能:
- 能够添加新的模态。
- 从人类可读格式转换为机器可读格式。
- 易于保存和在不同代理之间传输。
我愿意添加这个功能。
解决方案
提示可以采用以下形式:Listen to this audio {audio} and see the image {image} to describe the scene.
我建议使用 base64 编码来存储所有模态信息。
替代方案
- 无响应*
其他上下文
- 无响应*
6条答案
按热度按时间5ssjco0h1#
感谢@chenllliang.这是一个很好的主意!有没有关于以这种方式实现
MultimodalPrompt
的参考资料?jogvjijk2#
你好,这个设计灵感来自于当前多模态LLM(如MMICL和MiniGPT5)的进展,它们支持交错的文本和图像作为输入。多模态信息可以在提示的不同位置出现(对于大多数当前的VLM来说,在提示的开头)。
MultimodalPrompt
类可以根据不同的多模态LLM示例化,例如:不同的VLM处理多模态信息的方式不同,
MultimodalPrompt
应该具有适应不同模型的灵活性。u4dcyp6a3#
感谢您的解释!我认为这是有前景的(尽管我不知道
gpt-4v
是否是这样做的)。请随时提交拉取请求。如果您愿意,也很高兴进一步讨论。pw136qt24#
我也不知道,哈哈,但是从gpt4-v提供给用户的接口来看,gpt4-v似乎只是简单地将图像和文本连接起来。
n8ghc7c15#
我猜他们也会对图片进行编号。我尝试上传多张图片并询问第一张和第二张是什么。它确实按预期工作。
7gs2gvoe6#
感谢提供的信息。