我正在我的机器上执行深度学习,它有4个GPU的。在训练过程中,第三个GPU一直丢失(错误出现“GPU丢失”和日志表明这是这个特定的GPU)。我假设这是一个热问题,GPU正在变得不固定。在修复此硬件问题之前,我想继续使用3个GPU(“/gpu:0”、“/gpu:1”、“/gpu:3”)。在Keras中,是否有方法指定这些是我想使用的GPU(或者忽略“/gpu:2”)?我已经看到了很多关于指定GPU与CPU使用率和指定一个GPU上的多GPU机器,但没有这个具体的问题(隔离了一些特定的GPU)。
mrwjdhj31#
您可以尝试使用CUDA_VISIBLE_DEVICES环境
import os os.environ['CUDA_VISIBLE_DEVICES']="0,1,3"
可能是在导入keras/tf之前设置的。
1条答案
按热度按时间mrwjdhj31#
您可以尝试使用CUDA_VISIBLE_DEVICES环境
可能是在导入keras/tf之前设置的。