llama_index [Question]: Speeding up inference for text2SQL

bnl4lu3b  于 3个月前  发布在  其他
关注(0)|答案(1)|浏览(53)

问题验证

  • 我已在文档和Discord上寻找答案。

问题

你好,
我正在使用Text2SQL的查询管道,如下所示:
https://docs.llamaindex.ai/en/stable/examples/pipeline/query_pipeline_sql/
我同时使用Ollama进行嵌入和响应合成。以下是我的PC规格:
RAM:8GB
GPU:Nvidia GTX 1650
我使用了'nomic-embed-text'作为嵌入模型,并使用'dolphin-mistral'进行响应合成。
平均来说,响应合成部分需要大约2分30秒。我已经将我的嵌入存储在ChromaDB中。我已经尝试过代码并进行了调整,但我能得到的最好成绩是2分20秒。我想问一下,是否可以提高推理速度或者加载索引的速度?或者这个时间对于我的硬件来说是合理的?
谢谢。

kkih6yb8

kkih6yb81#

嘿,@guitmonk-1290,很高兴看到你深入研究Text2SQL和LlamaIndex!👋还记得我们一起解决那个挑战的时候吗?美好的时光!我会继续努力,寻找提高推理速度的方法。请耐心等待,我很快就会回来分享一些见解。

相关问题