所需先决条件
- 我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
- 我已在 Issue Tracker 和 Discussions 中搜索,但尚未报告此问题。(如果已经报告,请在那里加1或评论。)
- 请先在 Discussion 中提问。
系统信息
conda环境
torch=2.0.1
transformers=4.29.2
...
问题描述
我使用A100(80G)运行评估baichuan模型的 evaluate_zh.py 脚本,但它占用了大量的GPU内存,直到溢出。然后我发现模型没有以eval模式加载,同时也没有使用no_grad进行推断。
可复现的示例代码
Python代码片段:
[https://github.com/baichuan-inc/Baichuan-7B/blob/6f3ef4633a90c2d8a3e0763d0dec1b8dc11588f5/evaluation/evaluate_zh.py#L97C13-L97C13](url)
self.model = model.eval()
https://github.com/baichuan-inc/Baichuan-7B/blob/6f3ef4633a90c2d8a3e0763d0dec1b8dc11588f5/evaluation/evaluate_zh.py#L103
Add on this line:
@torch.inference_mode()
命令行:
额外依赖项:
重现步骤:
回溯
- 无响应*
预期行为
- 无响应*
其他上下文
- 无响应*
检查清单
- 我已经提供了所有相关和必要的信息。
- 我为这个问题选择了一个合适的标题。
5条答案
按热度按时间jdzmm42g1#
谢谢。它起作用了!
qlzsbp2j2#
谢谢!
cs7cruho3#
您的邮件已经收到,会尽快回复您
hc8w905p4#
在训练模型过程中,脚本默认使用gpu0,如何调换到gpu1上面?
9wbgstp75#
您的邮件已经收到,会尽快回复您