ollama 当与视觉模型聊天时，请使用带有URL的图像支持,

lnvxswe2 于 2个月前发布在其他

关注(0)|答案(2)|浏览(32)

你好，感谢制作这个有用工具的Ollama团队。
最近，chatgpt-4o API也支持视觉模式。他们提供了两种方法将图像上传到聊天中。一种是将图像编码为base64,Ollama也使用相同的方法。另一种方法是通过URL。通过URL,chatgpt聊天平台可以自动下载图像并将其添加到聊天中。
以下是关于offical API docs中的这些功能的描述：
Managing images
Chat Completions API与Assistants API不同，它不是有状态的。这意味着您必须自己管理传递给模型的消息(包括图像)。如果您想多次将相同的图像传递给模型，则每次向API发出请求时都必须传递图像。
对于长时间运行的对话，我们建议通过URL而不是base64传递图像。通过提前缩小图像的大小来提高模型的延迟性，使其小于预期的最大尺寸。对于低分辨率模式，我们期望一个512px x 512px的图像。对于高分辨率模式，图像的短边应小于768px,长边应小于2000px。
经过模型处理后的图像将从OpenAI服务器中删除，不会保留。We do not use data uploaded via the OpenAI API to train our models 。
在Ollama中是否有可能支持这种方式？

ollama

来源：https://github.com/ollama/ollama/issues/4474