text-generation-inference Recent issues building text-generation-server with torch+cu118

uidvcgyl 于 23天前发布在其他

关注(0)|答案(3)|浏览(14)

系统信息

tgi版本 >=2.2.0
python 3.9
cuda 11.8
torch 2.4.0+cu118 (也支持2.3.0+cu118)

信息

Docker
直接使用CLI

任务

一个官方支持的命令
自己的修改

可复现性

当尝试在具有torch 2.4.0+cu118(以及2.3.0+cu118)的CUDA 11.8系统上构建text-generation-inference时，make install 目前在最近引入的install-fbgemm步骤中在text-generation-server上失败。服务器Makefile中最近固定的依赖项pip install nvidia-nccl-cu12==2.22.3导致pip拉取依赖项，如torch 2.3.0+cu121,这将导致在cu118系统上的构建步骤失败(导致torch cuda版本不匹配)
顺便说一下，torch 2.3.0由于TORCH_CUDA_ARCH_LIST="8.0;9.0a",与text-generation-server的Makefile-fbgemm一起失败，因为9.0a没有被torch 2.3.0(pytorch/pytorch#113948)识别为有效的arch_bin。

预期行为

像之前的版本一样，使用torch==2.3.0+cu118成功构建，例如2.1.1

text-generation-inference

来源：https://github.com/huggingface/text-generation-inference/issues/2355

3条答案

按热度按时间

iyfamqjs1#

我相信我遇到了类似的事情：

git clone https://github.com/pytorch/FBGEMM.git fbgemm && \
cd fbgemm && git fetch && git checkout ddac8dd9fc0bee70a3f456df68b8aac38576c856  && \
git submodule update --init --recursive && \
cd fbgemm_gpu && \
pip install -r requirements.txt && \
CUDA_ARCH_LIST="8.0;9.0a" NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80 -gencode=arch=compute_90a,code=sm_90a" TORCH_CUDA_ARCH_LIST="8.0;9.0a" python setup.py --package_variant genai build

赞(0）回复(0）举报 23天前

wkyowqbh2#

感谢您报告此问题！👍
是的，这似乎在我们这边是一个回归。我认为@OlivierDehaene已经有了解决这个问题的方法。

赞(0）回复(0）举报 23天前

4ioopgfo3#

@ErikKaum分享的快速hack,以防您仍然遇到这个问题且不需要使用fbgemm:
删除以下行：
text-generation-inference/server/Makefile
133015f中的第8行
| | include Makefile-fbgemm |
以及对make install-fbgemm的依赖关系：
text-generation-inference/server/Makefile
133015f中的第31行
| | install-cuda: install-server install-flash-attention-v2-cuda install-vllm-cuda install-flash-attention install-fbgemm |
这将确保安装顺利进行！

赞(0）回复(0）举报 23天前

我来回答

text-generation-inference Recent issues building text-generation-server with torch+cu118

系统信息

信息

任务

可复现性

预期行为

3条答案

相关问题

热门标签

最新问答