ollama 交错文本和图像(用于小样本学习)

pdtvr36n 于 2个月前发布在其他

关注(0)|答案(2)|浏览(83)

似乎无法(例如使用llava)交错图像和文本(或者可以吗？)。
这将是必要的，以便给出一些图像-文本对的少量示例，然后是我们想要生成文本的最终图像。例如，OpenAI API 通过让content字段成为一个列表来实现这一点，其中每个条目可以是文本，或者是base64编码的图像。(他们在文档中的例子没有显示它，但确实可以使用该API任意交错图像和文本。)
我不确定是否可以使用底层的llava模型(或其他模型)实现这一点，但如果可以的话，那将是一个很棒的功能。

来源：https://github.com/ollama/ollama/issues/2213

2条答案

按热度按时间

感谢您的特性请求！
不幸的是，目前还不能这样做。Modelfile中的新MESSAGE命令尚未支持添加图像，我认为可能需要做一些工作来正确解释较旧的图像。

赞(0）回复(0）举报 2个月前

结果将是随机的。您可以自己尝试，甚至了解可能出现的差异。

在我的OpenAI(和Ollama)API扭曲中，我们将图像作为输入提示列表的最后几个项目。

确实，我看到交错的图像和文本似乎是一种组织事物的方式。但在USENET(或更早的网络论坛)上，例如，或者我自己也有过这样的经历，使用像“text[*]”这样的链接。这标记了指向某种预定义列表的链接。

当然，人类不会在文本推断之前阅读引用，你可能想“欺骗用户”，在关键的文本之前让他们看到一张图片，但那是广告，或者为什么用户应该在上下文之前看到图片呢？用户应该努力只检查相关的引用。

科学论文将引用放在末尾，读者可以根据自己的兴趣查看图表列表、表格和其他附录。

作为一个经验法则，AI只能理解你的世界。所以如果你在文本之前看到图片...太好了！我想...但是我在评估图片之前阅读文本...或者如果图片首先吸引了我，那么这就是一种偏见，你知道的。

唯一的通用语言是文本，无论如何...忘记图片吧，它们通过base64编码表示，或者是0和1,或者是yes或null,或者是鼓和吉他。

附言：我倾向于选择Karl Max rhetroics而不是(他的相反观点，认为结论是整个推理过程的起点？)。

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前