我在一台安装并启用了GPU的机器上使用了this script to train a model & predict,它似乎在预测阶段只使用了CPU。
我在.predict()
部分看到的设备放置日志如下所示:
2020-09-01 06:08:19.085400: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op RangeDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.085617: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op RepeatDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.089558: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op MapDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.090003: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op PrefetchDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.097064: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op FlatMapDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.097647: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op TensorDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.097802: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op RepeatDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.097957: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op ZipDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.101284: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op ParallelMapDataset in device /job:localhost/replica:0/task:0/device:CPU:0
2020-09-01 06:08:19.101865: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op ModelDataset in device /job:localhost/replica:0/task:0/device:CPU:0
即使当我跑步时
print(tf.config.experimental.list_physical_devices('GPU'))
我收到:
[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:1', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:2', device_type='GPU')]
我使用的代码是can be found here。full output logs can be seen here
更多上下文:
Python:Python
Tensorflow:2.1.0
GPU:Nvidia Tesla V100-PCIE-16GB
CPU:Intel Xeon Gold 5218 CPU @ 2.30GHz
内存:394851272 KB
操作系统:Linux
6条答案
按热度按时间lmyy7pcs1#
由于您已经有了一个GPU,我假设
tf.test.is_gpu_available()
返回True
。您可以使用这段代码强制TensorFlow
使用特定的设备-如果你想强制它使用CPU来代替代码的某些部分,这也是可行的。
一个插件,这可能是有用的,而使用
tf.device()
,你可以使用这个函数列出所有你拥有的设备-虽然对于你提到的用例,我不保证GPU的推理速度更快。
4szc88ey2#
听起来你需要根据文档使用
Distributed Strategy
。然后,您的代码将变成如下所示:根据文档,使用多个GPU的最佳实践是使用tf。分发策略。
hvvq6cgz3#
您的预测功能使用GPU。而且,我已经用你的代码在NVIDIA 1080 GTX上重新计算了时间&它需要100毫秒的推理时间。
重新启动系统或检查GPU是否正在使用。
下面是说明推理在GPU上运行的代码行:
2020-09-01 06:19:15.885778:I tensorflow/core/common_runtime/eager/execute。cc:573]在设备/作业:localhost/replica:0/task:0/设备:GPU:0中执行op __inference_distributed_function_58022
yhived7q4#
您是否使用了正确的tensorflow包?卸载tensorflow并安装tensorflow-gpu可能会有所帮助。
有关文档,请参见:https://www.tensorflow.org/install/gpu
luaexgnf5#
你能从
tensorflow.python
打电话给keras吗?喜欢;
另外,请检查CUDA和CuDNN版本。Cuda和CuDNN版本必须与Tensorflow版本兼容。您可以从here查看。由于您的tensorflow版本是
2.1
,CUDA和CuDNN版本必须分别是10.1
和7.6
。a2mppw5e6#
既然你有一个GPU, www.example.com _gpu_available()应该返回True。此代码强制TensorFlow使用指定的设备: