llama_index [问题]:多模态擦拭布

ssm49v7z 于 2个月前发布在其他

关注(0)|答案(2)|浏览(26)

问题验证

我已经在文档和Discord上寻找答案。

问题

我有一个用例，我得到了100多个文档。我已经实现了一个用于回答与文本相关的问题的方法，但问题是我的需求还包括图像。这些文档包含了一些过程的步骤。这些步骤中有一些文本，后面跟着一些图像。我试图实现的应用程序应该以这样的方式行事：如果有人问我关于这个过程的任何问题，它不仅应该给我提供这些步骤，还应该提供相应的图像(必须保持图像的顺序)。
例如：
步骤1:___ 一些文本 ___
相应步骤1的图像
步骤2:___ 一些文本 ___
相应步骤2的图像
等等。
你甚至如何做到这一点？这是可能的吗？

llama_index

来源：https://github.com/run-llama/llama_index/issues/12039

2条答案

按热度按时间

wdebmtf21#

嘿，@Prem-Nitin!很高兴看到你回来了，带着另一个有趣的问题。让我们一起探讨一下。🚀
根据你的需求，看起来你想实现一个可以处理文本和图像的多模态检索增强生成(RAG)系统。这确实是可以通过LlamaIndex仓库实现的。
LlamaIndex仓库提供了一个名为OpenAIMultiModal的类，旨在与OpenAI的API进行交互，特别是针对多模态功能(即处理文本和图像)。这个类扩展了MultiModalLLM类，表明它是设计用于与多模态大型语言模型(LLMs)一起工作的系统的一部分。你可以使用这个类来检索相关的文本块和图像。
以下是如何使用它的高级别概述：

使用Python-Markdown或Mistune等markdown解析器解析markdown文档，提取文本块和图像URL,然后使用BeautifulSoup等HTML解析器提取文本和图像URL。
使用适当的参数初始化OpenAIMultiModal类，定义你的文本提示和图像文档，并使用complete方法获取响应。
利用LlamaIndex仓库中的RAG系统类，如RagExamplePrediction、LabelledRagDataExample、RagPredictionDataset和LabelledRagDataset,存储用户查询、用于响应的上下文以及查询的参考答案，并使用查询引擎预测RAG示例。
你可以在source code中找到更多关于OpenAIMultiModal类的详细信息。此外，你可以参考LlamaIndex提供的多模态文档，特别是CLIP多模态RAG的使用案例，以便于为给定查询进行图像和文本检索。以下是相关链接：

希望这对你有所帮助！如果你有任何进一步的问题或需要更多的澄清，请随时提问。

参考资料

关于Dosu

此回复旨在帮助你节省时间并提供有用的信息。它不是精确的解决方案,而是你自己研究的一个起点。
帮助我变得更有用！如果这有帮助请给我一个👍，如果无关请给我一个👎。
如果你想继续对话，请用@dosu-bot开始你的回复。

赞(0）回复(0）举报 2个月前

rks48beu2#

请检查here,也许它会帮助你。我正在尝试在下一个版本中使用clip将图像和文本嵌入其中。

赞(0）回复(0）举报 2个月前

我来回答

llama_index [问题]:多模态擦拭布

问题验证

问题

2条答案

参考资料

关于Dosu

相关问题

热门标签

最新问答