text-generation-inference Recent issues building text-generation-server with torch+cu118

uidvcgyl  于 23天前  发布在  其他
关注(0)|答案(3)|浏览(14)

系统信息

tgi版本 >=2.2.0
python 3.9
cuda 11.8
torch 2.4.0+cu118 (也支持2.3.0+cu118)

信息

  • Docker
  • 直接使用CLI

任务

  • 一个官方支持的命令
  • 自己的修改

可复现性

当尝试在具有torch 2.4.0+cu118(以及2.3.0+cu118)的CUDA 11.8系统上构建text-generation-inference时,make install 目前在最近引入的install-fbgemm步骤中在text-generation-server上失败。服务器Makefile中最近固定的依赖项pip install nvidia-nccl-cu12==2.22.3导致pip拉取依赖项,如torch 2.3.0+cu121,这将导致在cu118系统上的构建步骤失败(导致torch cuda版本不匹配)
顺便说一下,torch 2.3.0由于TORCH_CUDA_ARCH_LIST="8.0;9.0a",与text-generation-server的Makefile-fbgemm一起失败,因为9.0a没有被torch 2.3.0(pytorch/pytorch#113948)识别为有效的arch_bin。

预期行为

像之前的版本一样,使用torch==2.3.0+cu118成功构建,例如2.1.1

iyfamqjs

iyfamqjs1#

我相信我遇到了类似的事情:

git clone https://github.com/pytorch/FBGEMM.git fbgemm && \
cd fbgemm && git fetch && git checkout ddac8dd9fc0bee70a3f456df68b8aac38576c856  && \
git submodule update --init --recursive && \
cd fbgemm_gpu && \
pip install -r requirements.txt && \
CUDA_ARCH_LIST="8.0;9.0a" NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80 -gencode=arch=compute_90a,code=sm_90a" TORCH_CUDA_ARCH_LIST="8.0;9.0a" python setup.py --package_variant genai build
wkyowqbh

wkyowqbh2#

感谢您报告此问题!👍
是的,这似乎在我们这边是一个回归。我认为@OlivierDehaene已经有了解决这个问题的方法。

4ioopgfo

4ioopgfo3#

@ErikKaum分享的快速hack,以防您仍然遇到这个问题且不需要使用fbgemm:
删除以下行:
text-generation-inference/server/Makefile
133015f中的第8行
| | include Makefile-fbgemm |
以及对make install-fbgemm的依赖关系:
text-generation-inference/server/Makefile
133015f中的第31行
| | install-cuda: install-server install-flash-attention-v2-cuda install-vllm-cuda install-flash-attention install-fbgemm |
这将确保安装顺利进行!

相关问题