ollama 交错文本和图像(用于小样本学习)

pdtvr36n  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(83)

似乎无法(例如使用llava)交错图像和文本(或者可以吗?)。
这将是必要的,以便给出一些图像-文本对的少量示例,然后是我们想要生成文本的最终图像。例如,OpenAI API 通过让content字段成为一个列表来实现这一点,其中每个条目可以是文本,或者是base64编码的图像。(他们在文档中的例子没有显示它,但确实可以使用该API任意交错图像和文本。)
我不确定是否可以使用底层的llava模型(或其他模型)实现这一点,但如果可以的话,那将是一个很棒的功能。

vkc1a9a2

vkc1a9a21#

感谢您的特性请求!
不幸的是,目前还不能这样做。Modelfile中的新MESSAGE命令尚未支持添加图像,我认为可能需要做一些工作来正确解释较旧的图像。

sh7euo9m

sh7euo9m2#

结果将是随机的。您可以自己尝试,甚至了解可能出现的差异。

在我的OpenAI(和Ollama)API扭曲中,我们将图像作为输入提示列表的最后几个项目。

确实,我看到交错的图像和文本似乎是一种组织事物的方式。但在USENET(或更早的网络论坛)上,例如,或者我自己也有过这样的经历,使用像“text[*]”这样的链接。这标记了指向某种预定义列表的链接。

当然,人类不会在文本推断之前阅读引用,你可能想“欺骗用户”,在关键的文本之前让他们看到一张图片,但那是广告,或者为什么用户应该在上下文之前看到图片呢?用户应该努力只检查相关的引用。

科学论文将引用放在末尾,读者可以根据自己的兴趣查看图表列表、表格和其他附录。

作为一个经验法则,AI只能理解你的世界。所以如果你在文本之前看到图片...太好了!我想...但是我在评估图片之前阅读文本...或者如果图片首先吸引了我,那么这就是一种偏见,你知道的。

唯一的通用语言是文本,无论如何...忘记图片吧,它们通过base64编码表示,或者是0和1,或者是yes或null,或者是鼓和吉他。

附言:我倾向于选择Karl Max rhetroics而不是(他的相反观点,认为结论是整个推理过程的起点?)。

相关问题