llama_index [Bug]: LlamaIndex需要很长时间才能返回响应,大约需要20-30分钟,

fnx2tebb  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(41)

问题描述

我的RAG实现在生成响应之前需要大约20-30分钟。无论我使用包含190页的PDF,还是即使使用包含5页的PDF,它仍然需要很长时间才能生成响应。我不确定这是个bug还是仅仅是我的笔记本电脑缺乏所需的要求。当我开始使用LlamaCPP或Llama Index时,my_query.query()函数只需要2-5分钟运行。然而,每次运行之后,它只会花费更长的时间。
我的笔记本电脑是戴尔Inspiron 3521,拥有8GB RAM,没有专用GPU,搭载Intel第3代Core处理器,i3核心,4核处理能力为1.9GHz。
如果有人能告诉我出了什么问题,我将非常感激。

版本

llama-index v0.10.5

重现步骤

运行query_parser.query(question)函数。

相关日志/回溯

  • 无响应*
hsgswve4

hsgswve41#

  • 🤖*

嘿,@Stephen-Echessa!我是Dosu,一个在这里帮助解决bug、回答问题并引导你在等待人类维护者更仔细地查看时贡献的机器人。请知道,我会在这段时间里支持你!我正在深入研究你的问题,并将在不久后给你一个完整的答案。

oknwwptz

oknwwptz2#

llama.cpp总体上运行速度较慢。特别是在没有利用GPU的情况下(我不确定llama.cpp是否可以在英特尔CPU上运行?)
我建议使用ollama以获得更优化的时间(或者尽可能优化到你的机器上)

bq9c1y66

bq9c1y663#

  • 🤖*

感谢您提供关于您问题的详细信息。query_parser.query(question) 函数比以前花费的时间明显更长,这是相当不寻常的。LlamaIndex 的性能不应该随着时间的推移而降低,尤其是没有达到您所经历的程度。
您正在使用的硬件虽然不是最新的,但仍然应该能够在没有如此显著延迟的情况下运行 LlamaIndex。LlamaIndex 设计在各种硬件配置上都能最佳工作,包括没有专用 GPU 的系统。
在我们考虑切换到 ollama 之前,让我们尝试确定问题的根本原因。您能提供以下额外信息吗?

  1. 自您首次注意到响应时间增加以来,您是否对代码或环境进行了任何更改?
  2. 您是否只在特定的 PDF 文件中遇到这个问题?
  3. 您正在使用的 LlamaIndex 的确切版本是什么?您提到了 v0.10.5,但我想确认一下。
  4. 您的控制台中是否有任何错误消息或警告,可能会给我们提供一些线索,说明发生了什么?
  5. 您能否提供调用 query_parser.query(question) 函数的代码示例?
    这些信息将帮助我们更好地了解问题并找到解决方案。
关于 Dosu

此回复旨在节省您的时间并提供帮助。它不是精确的解决方案,而是您自己研究的一个起点。
请帮助我变得更有用!如果您觉得有帮助,请留下一个👍,如果无关紧要,请留下一个👎。
如果您想继续对话,请以 @dosu-bot 开头回复。

7y4bm7vi

7y4bm7vi4#

让我尝试使用Ollama并看看我会发现什么。愿上帝保佑它运行得更快。
编辑:我尝试使用Llama索引运行Ollama,但我一直收到超时错误。我不知道出了什么问题。

from llama_index.legacy.llms import Ollama
Llm = Ollama(model='mistral:7b-instruct-q4_K_M')
response = llm.complete('What is NLTK?')
print(response)

我已经完成了Ollama运行mistral:7b-instruct-q4_K_M,但似乎无法在我的代码中使其正常工作。这可能出了什么问题?

jyztefdp

jyztefdp5#

你可以尝试以下几个方法:

  1. 使用日志记录(Traceloop,LangTrace)来了解需要调整的组件。
  2. 问题可能出在分块、查询-响应检索上。
  3. 另外,由于你使用了多个PDF文件,可以使用路由器进行相关文档的搜索。
  4. 如果问题出在LLMs上,可以尝试量化模型,需要升级硬件。
oprakyz7

oprakyz76#

@abhim1509 请问您是否有针对您提到的每个点的教程?

相关问题