ollama 当与视觉模型聊天时,请使用带有URL的图像支持,

lnvxswe2  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(32)

你好,感谢制作这个有用工具的Ollama团队。
最近,chatgpt-4o API也支持视觉模式。他们提供了两种方法将图像上传到聊天中。一种是将图像编码为base64,Ollama也使用相同的方法。另一种方法是通过URL。通过URL,chatgpt聊天平台可以自动下载图像并将其添加到聊天中。
以下是关于offical API docs中的这些功能的描述:
Managing images
Chat Completions API与Assistants API不同,它不是有状态的。这意味着您必须自己管理传递给模型的消息(包括图像)。如果您想多次将相同的图像传递给模型,则每次向API发出请求时都必须传递图像。
对于长时间运行的对话,我们建议通过URL而不是base64传递图像。通过提前缩小图像的大小来提高模型的延迟性,使其小于预期的最大尺寸。对于低分辨率模式,我们期望一个512px x 512px的图像。对于高分辨率模式,图像的短边应小于768px,长边应小于2000px。
经过模型处理后的图像将从OpenAI服务器中删除,不会保留。We do not use data uploaded via the OpenAI API to train our models
在Ollama中是否有可能支持这种方式?

z5btuh9x

z5btuh9x1#

有一个PR(Pull Request)与之相关 - #2506,但自2月份打开以来尚未进行更新。

e1xvtsh3

e1xvtsh32#

有一个PR(Pull Request)与之相关 - #2506,但自2月份打开以来尚未进行更新。
在ollama团队确认之前,我不会更新这个PR。不浪费我的时间。

相关问题