vllm OOM with meta-llama/Llama-2-70b-chat-hf

b1uwtaje 于 1个月前发布在其他

关注(0)|答案(3)|浏览(57)

我拥有8个Tesla V100 32 GB GPU,并设置了tensor_parallel_size为tp 8,这应该足以运行meta-llama/Llama-2-70b-chat-hf,但我遇到了一个问题。

这是我的设置，由于我的GPU是版本7,所以无法使用量化。

vllm

来源：https://github.com/vllm-project/vllm/issues/2348

3条答案

按热度按时间

vsnjm48y1#

确实，你甚至无法将70b-llama聊天加载到8 * v100中(有趣的是，你可以基于相同的配置运行70b千文聊天)。我想这是由于vllm加速技术导致的。

赞(0）回复(0）举报 2个月前

1yjd4xko2#

您好，我了解到您在使用8xL4 GPUs (GCP G2 instance, total 192GB vRAM)时无法加载Llama-2-70B模型。这可能是由于您的GPU内存不足导致的。Llama-2-70B是一个大规模语言模型，具有70亿个参数，是目前最大的语言模型之一。如果您想在消费级GPU上运行Llama 2 70B模型，可以尝试使用ExLlamaV2框架。该框架为在消费级GPU上高效运行Llama 2 70B模型提供了有力支持。

赞(0）回复(0）举报 2个月前

zaqlnxep3#

我在一台配备8个V100 32G的节点上测试了v0.3.3版本，并在CUDA 11.8环境下运行，没有出现OOM(内存溢出)问题。

赞(0）回复(0）举报 2个月前