[Misc]: 加载 microsoft/Phi-3-medium-128k-instruct with vLLM

uelo1irk  于 3个月前  发布在  其他
关注(0)|答案(1)|浏览(30)

关于vllm,您想讨论什么问题?

我正在使用NVIDIA A100 80GB MIG 3g.40gb slice部署microsoft/Phi-3-medium-128k-instruct(约26gb),并使用vllm。然而,我一直遇到OOM问题。以下是我初始化模型的方式:

engine_args = AsyncEngineArgs(
    model="microsoft/Phi-3-medium-128k-instruct",
    gpu_memory_utilization=0.8,
    dtype=torch.float16,
    enforce_eager=True,
    trust_remote_code=True
)
loaded_llm = AsyncLLMEngine.from_engine_args(engine_args)

这是错误信息:

RuntimeError: NVML_SUCCESS == r INTERNAL ASSERT FAILED at "../c10/cuda/CUDACachingAllocator.cpp":844, 请向PyTorch报告错误。

关于如何调整参数以使此模型适应您的40g MIG切片,您可以尝试以下方法:

  1. 减小gpu_memory_utilization的值。这将限制GPU内存的使用率,但可能会影响模型的性能。例如,将其设置为0.5或更低。

  2. 考虑使用较小的模型。如果可能的话,尝试使用一个较小的模型,以便在有限的内存中运行。

  3. 检查是否有其他进程在使用大量GPU内存。如果有其他进程也在使用大量GPU内存,您可能需要等待它们完成操作,或者考虑升级硬件。

oxiaedzo

oxiaedzo1#

请包含问题模板?
也许可以尝试使用v0.4.3版本再次进行操作。

相关问题