vllm examples/offline_inference.py,推理baichuan-13b,1*A100(80G),会OOM?

nwlls2ji  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(74)

采用代码examples/offline_inference.py,vllm也这么吃显存吗?

ubbxdtey

ubbxdtey1#

控制下gpu memory usage看下

83qze16e

83qze16e2#

vllm会将载入模型后剩余显存全拿来分配kv cache block,默认的gpu memory usage为0.9,越大就分配的越多。

7z5jn7bk

7z5jn7bk3#

将链接中文件init的函数默认参数gpu_memory_utilization: float = 0.9,改为0.5,相当于一开始占用你90%的显存,现在就只占用50%的显存了。

相关问题