ollama Gemma2在并行请求中工作不正确,

z4bn682m  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(26)

问题是什么?

我正在测试系统可以处理的多个请求。
对于Gemma2,当执行单个请求时,响应是完美的。
但是对于多个请求,响应看起来很空洞。

我尝试使用llama3进行多请求,但它在那方面表现得很好。

操作系统

Windows

GPU

Nvidia

CPU

AMD

Ollama版本

v0.1.48

sf6xfgos

sf6xfgos1#

我无法复现。在模型完全加载到显存的GPU上,发送并行请求不会导致乱码响应。

您能分享更多关于您的设置的信息吗?模型是在GPU/CPU之间分配的吗?您有多少显存?

相关问题