pytorch 系统上的CUDA版本与编译Torch时使用的CUDA版本不匹配

ryevplcw  于 2023-08-05  发布在  其他
关注(0)|答案(1)|浏览(352)

安装Apex时,如果系统上的CUDA版本与编译Torch时使用的CUDA版本不匹配,则可能会引发错误。可以通过在此处注解来避免此加薪:
if(裸机版本!= torch_binary_version):raise RuntimeError(“正在使用与编译Pytorch二进制文件的版本不匹配的Cuda版本编译Cuda扩展。““使用Cuda {}.\n”.format(torch.version.cuda)编译Pytorch二进制文件

  • 在某些情况下,次要版本不匹配不会导致以后的错误:““NVIDIA/apex#323(注解)。““您可以尝试注解掉此检查(风险自担)。”)

默认情况下,它评论了iam试图使用ml.g5.12xlarge在AWS sage maker上运行此操作无法通过请帮助我。使用Python 3.8.10,但文档说使用Python 3.9或更高版本,这是一个错字还是我做了一些工作,请帮助。
我遵循了这个文档https://github.com/NVIDIA/NeMo指示。

7uhlpewt

7uhlpewt1#

您似乎在AWS SageMaker上安装Apex并运行NVIDIA NeMo时遇到了与CUDA版本和Python兼容性相关的多个问题。让我们一步一步地解决这些问题:

  1. CUDA版本不匹配:您提到的关于CUDA版本不匹配的错误是由Apex在安装过程中引发的,当您系统上的CUDA版本与用于编译PyTorch二进制文件的CUDA版本不匹配时。由于您在AWS SageMaker上运行此程序,因此SageMaker环境的CUDA版本可能与Apex使用的版本不同。
    要解决此问题,您有两个选择:a.确保SageMaker示例上的CUDA版本与用于编译PyTorch二进制文件的CUDA版本相匹配。如果可以选择具有匹配CUDA版本的不同SageMaker示例类型,则可以尝试。B.如错误消息中所建议的,您可以尝试在Apex安装代码中注解掉版本检查。这应该由您自己承担风险,因为它可能会导致以后的兼容性问题。如果选择此选项,请谨慎操作。
  2. Python版本兼容性:NeMo文档建议使用Python 3.9或更高版本。但是,您提到您正在使用Python 3.8.10。虽然遵循推荐的Python版本总是更好,但在大多数情况下,次要版本(例如Python 3.8和3.9)不应导致严重的兼容性问题。你可以尝试用Python 3.8.10运行NeMo,它可能会工作得很好。如果遇到任何与Python版本相关的特定问题,可以尝试切换到Python 3.9,看看是否可以解决问题。
    以下是在AWS SageMaker上安装和执行NeMo时可以执行的操作:
    1.检查SageMaker示例上的CUDA版本:您可以运行以下命令来检查CUDA版本:
nvcc --version

字符串
1.确保您已正确设置NeMo所需的环境和依赖项,包括PyTorch、NVIDIA Apex等。
1.请确保您正确地遵循了NeMo文档中的所有步骤。
1.如果您在安装或执行过程中遇到错误,请仔细阅读错误消息,并在NeMo问题跟踪器或相关论坛中搜索与SageMaker相关的任何特定解决方案或变通方法。
1.如果问题仍然存在,请考虑联系NeMo社区或AWS SageMaker支持团队以获得进一步帮助。

相关问题