ollama 提高奥拉玛的输出速度

9rnv2umw  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(96)

我已经注意到,ollama总是以固定的速度输出内容,而且大多数时候,GPU没有完全利用(0%负载),这表明生成内容的瓶颈不在GPU上。
同时,我观察到在内容输出过程中,一个CPU核心始终保持高负载(70%负载),这表明瓶颈可能在于CPU解码过程。
因此,您是否可以考虑实施多线程解码,以利用CPU的多核能力来加速输出速度?
我已经在Google上搜索了关于这个问题的讨论,但没有找到任何相关的内容。
如果我的分析是错误的或者问题无法解决,您可以直接关闭这个问题。谢谢。

mrwjdhj3

mrwjdhj31#

整个生成过程的GPU负载为0%?这似乎表明你的GPU没有被充分利用。GPU内存是否已满?提示:使用nvitopnvtop进行监控。

lfapxunr

lfapxunr2#

为了推理,我们使用了https://github.com/ggerganov/llama.cpp,所以最好在那里提出这个问题。

dpiehjr4

dpiehjr43#

你在整个生成过程中的GPU负载为0%?这似乎表明你的GPU没有被充分利用。GPU内存是否已满?提示:使用or来监控。nvitop``nvtop
不,我的意思是GPU非常快速地完成了生成任务,加载时间非常短。剩余的时间花在了CPU上,它需要很长时间逐字输出内容。换句话说,CPU的解码速度远低于GPU的生成速度。
我在任务管理器中观察到了这种现象。

cfh9epnr

cfh9epnr4#

ollama use https://github.com/ggerganov/llama.cpp for inference, so it might be better asked there.
Thanks

shyt4zoc

shyt4zoc5#

非常奇怪。我个人还没有遇到过这种情况,可能是因为我主要使用流媒体。希望社区中的其他人能帮助你。祝你好运!

相关问题