QAnything 推理并发机制是怎样的?

qacovj5a  于 3个月前  发布在  其他
关注(0)|答案(1)|浏览(48)

像ollama可以设置推理最大并发数,那么qanything怎么设置呢?是需要在fastchat里去设置吗?

注!我说的是大模型推理并发,不是API并发

z3yyvxxp

z3yyvxxp1#

使用VLLM进行推理时,服务中默认有10个worker。

相关问题