我正在测试系统可以处理的多个请求。对于Gemma2,当执行单个请求时,响应是完美的。但是对于多个请求,响应看起来很空洞。
我尝试使用llama3进行多请求,但它在那方面表现得很好。
Windows
Nvidia
AMD
v0.1.48
sf6xfgos1#
我无法复现。在模型完全加载到显存的GPU上,发送并行请求不会导致乱码响应。
您能分享更多关于您的设置的信息吗?模型是在GPU/CPU之间分配的吗?您有多少显存?
1条答案
按热度按时间sf6xfgos1#
我无法复现。在模型完全加载到显存的GPU上,发送并行请求不会导致乱码响应。
您能分享更多关于您的设置的信息吗?模型是在GPU/CPU之间分配的吗?您有多少显存?