Baichuan-7B [BUG] CUDA内存不足,当评估模型时,

y1aodyip  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(88)

所需先决条件

系统信息

conda环境
torch=2.0.1
transformers=4.29.2
...

问题描述

我使用A100(80G)运行评估baichuan模型的 evaluate_zh.py 脚本,但它占用了大量的GPU内存,直到溢出。然后我发现模型没有以eval模式加载,同时也没有使用no_grad进行推断。

可复现的示例代码

Python代码片段:

[https://github.com/baichuan-inc/Baichuan-7B/blob/6f3ef4633a90c2d8a3e0763d0dec1b8dc11588f5/evaluation/evaluate_zh.py#L97C13-L97C13](url)
self.model = model.eval()

https://github.com/baichuan-inc/Baichuan-7B/blob/6f3ef4633a90c2d8a3e0763d0dec1b8dc11588f5/evaluation/evaluate_zh.py#L103
Add on this line:
@torch.inference_mode()

命令行:
额外依赖项:
重现步骤:

回溯

  • 无响应*

预期行为

  • 无响应*

其他上下文

  • 无响应*

检查清单

  • 我已经提供了所有相关和必要的信息。
  • 我为这个问题选择了一个合适的标题。
jdzmm42g

jdzmm42g1#

谢谢。它起作用了!

cs7cruho

cs7cruho3#

您的邮件已经收到,会尽快回复您

hc8w905p

hc8w905p4#

在训练模型过程中,脚本默认使用gpu0,如何调换到gpu1上面?

9wbgstp7

9wbgstp75#

您的邮件已经收到,会尽快回复您

相关问题