在CPU上运行vLLM以获得高性能的推荐设置是什么?例如,如果我有一个双插槽服务器,每个插槽有96个核心,应该分配多少个核心(--cpuset-cpus)来运行多个vLLM副本?
kt06eoxx1#
related:#5735
1条答案
按热度按时间kt06eoxx1#
related:
#5735