问题验证
- 我已在文档和Discord上寻找答案。
问题
你好,
我正在使用Text2SQL的查询管道,如下所示:
https://docs.llamaindex.ai/en/stable/examples/pipeline/query_pipeline_sql/
我同时使用Ollama进行嵌入和响应合成。以下是我的PC规格:
RAM:8GB
GPU:Nvidia GTX 1650
我使用了'nomic-embed-text'作为嵌入模型,并使用'dolphin-mistral'进行响应合成。
平均来说,响应合成部分需要大约2分30秒。我已经将我的嵌入存储在ChromaDB中。我已经尝试过代码并进行了调整,但我能得到的最好成绩是2分20秒。我想问一下,是否可以提高推理速度或者加载索引的速度?或者这个时间对于我的硬件来说是合理的?
谢谢。
1条答案
按热度按时间kkih6yb81#
嘿,@guitmonk-1290,很高兴看到你深入研究Text2SQL和LlamaIndex!👋还记得我们一起解决那个挑战的时候吗?美好的时光!我会继续努力,寻找提高推理速度的方法。请耐心等待,我很快就会回来分享一些见解。