llama_index [Question]: Speeding up inference for text2SQL

bnl4lu3b 于 6个月前发布在其他

关注(0)|答案(1)|浏览(64)

问题验证

我已在文档和Discord上寻找答案。

问题

你好，
我正在使用Text2SQL的查询管道，如下所示：
https://docs.llamaindex.ai/en/stable/examples/pipeline/query_pipeline_sql/
我同时使用Ollama进行嵌入和响应合成。以下是我的PC规格：
RAM:8GB
GPU:Nvidia GTX 1650
我使用了'nomic-embed-text'作为嵌入模型，并使用'dolphin-mistral'进行响应合成。
平均来说，响应合成部分需要大约2分30秒。我已经将我的嵌入存储在ChromaDB中。我已经尝试过代码并进行了调整，但我能得到的最好成绩是2分20秒。我想问一下，是否可以提高推理速度或者加载索引的速度？或者这个时间对于我的硬件来说是合理的？
谢谢。

llama_index

来源：https://github.com/run-llama/llama_index/issues/13202