所有cuda,pytorch,cuda工具包匹配,但`torch.cuda.is_available()`仍然为False

3zwjbxry  于 2024-01-09  发布在  其他
关注(0)|答案(1)|浏览(275)

我想在配备NVIDIA A100-SXM 4 - 40 GB GPU的集群上运行深度学习模型。以下是我的Cuda和PyTorch版本:

>>> print(torch.__version__)
2.0.1+cu117
>>> print(torch.version.cuda)
11.7

字符串
nvcc --version给我:

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Tue_May__3_18:49:52_PDT_2022
Cuda compilation tools, release 11.7, V11.7.64
Build cuda_11.7.r11.7/compiler.31294372_0


nvidia-smi给我:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.48.07    Driver Version: 515.48.07    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-SXM...  On   | 00000000:07:00.0 Off |                   On |
| N/A   28C    P0    41W / 400W |     45MiB / 40960MiB |     N/A      Default |
|                               |                      |              Enabled |
+-------------------------------+----------------------+----------------------+


在我看来,所有版本都匹配,torch.cuda.is_available()仍然是False。
我也尝试了python -m torch.utils.collect_env,并得到以下结果:

PyTorch version: 2.0.1+cu117
Is debug build: False
CUDA used to build PyTorch: 11.7
ROCM used to build PyTorch: N/A

OS: Ubuntu 20.04.1 LTS (x86_64)
GCC version: (Ubuntu 9.4.0-1ubuntu1~20.04.1) 9.4.0
Clang version: Could not collect
CMake version: version 3.27.7
Libc version: glibc-2.31

Python version: 3.8.18 (default, Sep 11 2023, 13:40:15)  [GCC 11.2.0] (64-bit runtime)
Python platform: Linux-5.4.0-121-generic-x86_64-with-glibc2.17
Is CUDA available: False
CUDA runtime version: 11.7.64
CUDA_MODULE_LOADING set to: N/A
GPU models and configuration: GPU 0: NVIDIA A100-SXM4-40GB
Nvidia driver version: 515.48.07
cuDNN version: Probably one of the following:
/usr/lib/x86_64-linux-gnu/libcudnn.so.8.4.0
/usr/lib/x86_64-linux-gnu/libcudnn_adv_infer.so.8.4.0
/usr/lib/x86_64-linux-gnu/libcudnn_adv_train.so.8.4.0
/usr/lib/x86_64-linux-gnu/libcudnn_cnn_infer.so.8.4.0
/usr/lib/x86_64-linux-gnu/libcudnn_cnn_train.so.8.4.0
/usr/lib/x86_64-linux-gnu/libcudnn_ops_infer.so.8.4.0
/usr/lib/x86_64-linux-gnu/libcudnn_ops_train.so.8.4.0
HIP runtime version: N/A
MIOpen runtime version: N/A
Is XNNPACK available: True


有人能帮我吗?非常感谢!

zf9nrax1

zf9nrax11#

看起来你的PyTorch版本(2.0.1+ cu 117)和CUDA版本(11.7)确实兼容。但是,torch.cuda.is_available()返回False可能有几个原因。
以下是解决此问题的一些建议:
1.请确保您使用的是最新版本的PyTorch。您可以使用以下命令升级PyTorch:
pip install --upgrade torch
1.确保您的NVIDIA GPU驱动程序是最新的。您提到驱动程序版本是515.48.07,但最好从NVIDIA网站上检查最新的驱动程序。
1.验证CUDA工具包是否正确安装。确保CUDA二进制文件位于系统的PATH中。您可能需要将CUDA路径添加到.bashrc或.bash_profile中:
导出路径=/usr/local/cuda/bin:$PATH
将/usr/local/cuda替换为CUDA安装的实际路径。
1.请确保cuDNN已安装并位于正确的路径中。PyTorch依赖cuDNN进行GPU加速。您可以从NVIDIA网站下载cuDNN并按照安装说明进行操作。
1.确保您的GPU对系统可见。检查GPU是否未处于独占模式,以及系统权限是否存在问题。
1.仔细检查PyTorch版本与CUDA版本的兼容性。确保您使用的PyTorch版本是使用正确的CUDA版本构建的。

相关问题