问题描述
我的RAG实现在生成响应之前需要大约20-30分钟。无论我使用包含190页的PDF,还是即使使用包含5页的PDF,它仍然需要很长时间才能生成响应。我不确定这是个bug还是仅仅是我的笔记本电脑缺乏所需的要求。当我开始使用LlamaCPP或Llama Index时,my_query.query()函数只需要2-5分钟运行。然而,每次运行之后,它只会花费更长的时间。
我的笔记本电脑是戴尔Inspiron 3521,拥有8GB RAM,没有专用GPU,搭载Intel第3代Core处理器,i3核心,4核处理能力为1.9GHz。
如果有人能告诉我出了什么问题,我将非常感激。
版本
llama-index v0.10.5
重现步骤
运行query_parser.query(question)函数。
相关日志/回溯
- 无响应*
6条答案
按热度按时间hsgswve41#
嘿,@Stephen-Echessa!我是Dosu,一个在这里帮助解决bug、回答问题并引导你在等待人类维护者更仔细地查看时贡献的机器人。请知道,我会在这段时间里支持你!我正在深入研究你的问题,并将在不久后给你一个完整的答案。
oknwwptz2#
llama.cpp总体上运行速度较慢。特别是在没有利用GPU的情况下(我不确定llama.cpp是否可以在英特尔CPU上运行?)
我建议使用ollama以获得更优化的时间(或者尽可能优化到你的机器上)
bq9c1y663#
感谢您提供关于您问题的详细信息。
query_parser.query(question)
函数比以前花费的时间明显更长,这是相当不寻常的。LlamaIndex 的性能不应该随着时间的推移而降低,尤其是没有达到您所经历的程度。您正在使用的硬件虽然不是最新的,但仍然应该能够在没有如此显著延迟的情况下运行 LlamaIndex。LlamaIndex 设计在各种硬件配置上都能最佳工作,包括没有专用 GPU 的系统。
在我们考虑切换到 ollama 之前,让我们尝试确定问题的根本原因。您能提供以下额外信息吗?
query_parser.query(question)
函数的代码示例?这些信息将帮助我们更好地了解问题并找到解决方案。
关于 Dosu
此回复旨在节省您的时间并提供帮助。它不是精确的解决方案,而是您自己研究的一个起点。
请帮助我变得更有用!如果您觉得有帮助,请留下一个👍,如果无关紧要,请留下一个👎。
如果您想继续对话,请以 @dosu-bot 开头回复。
7y4bm7vi4#
让我尝试使用Ollama并看看我会发现什么。愿上帝保佑它运行得更快。
编辑:我尝试使用Llama索引运行Ollama,但我一直收到超时错误。我不知道出了什么问题。
我已经完成了Ollama运行mistral:7b-instruct-q4_K_M,但似乎无法在我的代码中使其正常工作。这可能出了什么问题?
jyztefdp5#
你可以尝试以下几个方法:
oprakyz76#
@abhim1509 请问您是否有针对您提到的每个点的教程?