我正在使用VLLM来实现CPU SKU的模型推理。最新版本允许在CPU上进行离线批量推理,但是入口点(即vllm.entrypoints.openai.api_server.py和vllm.entrypoints.api_server.py)仅适用于GPU。我想为CPU添加支持以使用这些入口点。
axr492tv1#
看起来openai.api_server以openai的格式提供开源模型,并没有直接使用openai的gpt-3.5模型。我们可能需要进行cpu卸载或其他操作。@sanchez-alex
1条答案
按热度按时间axr492tv1#
看起来openai.api_server以openai的格式提供开源模型,并没有直接使用openai的gpt-3.5模型。我们可能需要进行cpu卸载或其他操作。@sanchez-alex