系统信息
tgi版本 >=2.2.0
python 3.9
cuda 11.8
torch 2.4.0+cu118 (也支持2.3.0+cu118)
信息
- Docker
- 直接使用CLI
任务
- 一个官方支持的命令
- 自己的修改
可复现性
当尝试在具有torch 2.4.0+cu118(以及2.3.0+cu118)的CUDA 11.8系统上构建text-generation-inference时,make install
目前在最近引入的install-fbgemm步骤中在text-generation-server上失败。服务器Makefile中最近固定的依赖项pip install nvidia-nccl-cu12==2.22.3
导致pip拉取依赖项,如torch 2.3.0+cu121,这将导致在cu118系统上的构建步骤失败(导致torch cuda版本不匹配)
顺便说一下,torch 2.3.0由于TORCH_CUDA_ARCH_LIST="8.0;9.0a",与text-generation-server的Makefile-fbgemm一起失败,因为9.0a没有被torch 2.3.0(pytorch/pytorch#113948)识别为有效的arch_bin。
预期行为
像之前的版本一样,使用torch==2.3.0+cu118成功构建,例如2.1.1
3条答案
按热度按时间iyfamqjs1#
我相信我遇到了类似的事情:
wkyowqbh2#
感谢您报告此问题!👍
是的,这似乎在我们这边是一个回归。我认为@OlivierDehaene已经有了解决这个问题的方法。
4ioopgfo3#
@ErikKaum分享的快速hack,以防您仍然遇到这个问题且不需要使用
fbgemm
:删除以下行:
text-generation-inference/server/Makefile
133015f中的第8行
| | include Makefile-fbgemm |
以及对
make install-fbgemm
的依赖关系:text-generation-inference/server/Makefile
133015f中的第31行
| | install-cuda: install-server install-flash-attention-v2-cuda install-vllm-cuda install-flash-attention install-fbgemm |
这将确保安装顺利进行!