[Bug]: Llama 3.1 405 B FP8模型不受vLLM(v0.5.3.post1)在AMD GPU上的支持,

um6iljoc  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(14)

当前环境

vLLM版本:0.5.3.post1(适用于ROCm)
模型:meta-llama/Meta-Llama-3.1-405B-Instruct-FP8
AMD MI300x GPU

🐛 描述bug

在AMD MI300x GPU上加载meta-llama/Meta-Llama-3.1-405B-Instruct-FP8时,vLLM抛出值错误。
值错误:目前不支持在ROCm中使用fbgemm_fp8量化。请参阅屏幕截图以获取参考。

3hvapo4f

3hvapo4f1#

你好,@jerin-scalers-ai,感谢你报告这个问题。目前,FP8不支持AMD GPU。vLLM和AMD团队正在努力解决这个问题。请保持关注。

相关问题