在4 x H100(TP=4)上使用deepspeed-mii v0.2.3为Mixtral 8x7B提供服务时遇到问题,其他参数默认来自nvidia nvidia/cuda:12.3.1-devel-ubuntu22.04
基础镜像。跟踪显示:
undefined symbol: _Z19cuda_wf6af16_linearRN2at6TensorES1_S1_S1_S1_S1_iiii
还有一个警告:FP6 quantization kernel is only supported on Ampere architectures
,但我在启动服务器时没有指定量化。似乎有一个未使用的内核被导入,但它没有在Grace Hopper设备上注册。
当我降级到v0.2.2时,遇到了以下错误:
Arch unsupported for MoE GEMM
9条答案
按热度按时间rggaifut1#
我遇到了同样的问题,V100s的错误输出完全相同。当我切换到A100s时,问题得到了解决。
qzwqbdag2#
我遇到了同样的问题,V100的错误输出完全相同。当我切换到A100时,问题得到了解决
是的 - 可以确认在A100上可以正常工作,但在H100上不行
vulvrdjw3#
感谢您的反馈。看起来在最近的发布中,当我们添加了FP6量化支持时引入了一个错误。我会进行调查并修复这个错误。谢谢!
b4wnujal4#
@JamesTheZ 可能知道这个。
toiithl65#
JamesTheZ可能知道这个。
这似乎是因为当前的实现只在Ampere上编译
cuda_linear_kernels.cpp
:https://github.com/microsoft/DeepSpeed/blob/330d36bb39b8dd33b5603ee0024705db38aab534/op_builder/inference_core_ops.py#L75-L81zengzsys6#
我遇到了一个问题,
meta-llama/Llama-2-7b-chat-hf
在 H100 上因为未定义的符号:_Z19cuda_wf6af16_linearRN2at6TensorES1_S1_S1_S1_S1_iiii 而无法工作。我也在mistralai/Mistral-7B-v0.1
上遇到了同样的问题。这两个模型在我设置中都无法正常工作。我尝试使用 deepspeed-mii(0.2.1、0.2.2 和 0.2.3)等多个版本,以及 PyTorch(2.2.1、2.1.2 和 2.1.0)的不同版本组合,但这些组合似乎都没有奏效。此外,甚至从源代码编译,但不幸的是,我没有成功。
有人遇到同样的问题吗?或者有什么建议如何解决这个问题?
to94eoyn7#
Downgrading to this will work:
deepspeed 0.13.5
deepspeed-mii 0.2.2
o2gm4chl8#
这个问题有任何更新吗?
5uzkadbs9#
我发现这是一个上游FasterTransformer的问题,请检查这些行。但是faster transformer已经迁移到TensorRT-LLM,它确实有an implementation under sm_90。您有什么解决计划吗?或者欢迎PR?