vllm OOM with meta-llama/Llama-2-70b-chat-hf

b1uwtaje  于 1个月前  发布在  其他
关注(0)|答案(3)|浏览(57)

我拥有8个Tesla V100 32 GB GPU,并设置了tensor_parallel_size为tp 8,这应该足以运行meta-llama/Llama-2-70b-chat-hf,但我遇到了一个问题。

这是我的设置,由于我的GPU是版本7,所以无法使用量化。

vsnjm48y

vsnjm48y1#

确实,你甚至无法将70b-llama聊天加载到8 * v100中(有趣的是,你可以基于相同的配置运行70b千文聊天)。我想这是由于vllm加速技术导致的。

1yjd4xko

1yjd4xko2#

您好,我了解到您在使用8xL4 GPUs (GCP G2 instance, total 192GB vRAM)时无法加载Llama-2-70B模型。这可能是由于您的GPU内存不足导致的。Llama-2-70B是一个大规模语言模型,具有70亿个参数,是目前最大的语言模型之一。如果您想在消费级GPU上运行Llama 2 70B模型,可以尝试使用ExLlamaV2框架。该框架为在消费级GPU上高效运行Llama 2 70B模型提供了有力支持。

zaqlnxep

zaqlnxep3#

我在一台配备8个V100 32G的节点上测试了v0.3.3版本,并在CUDA 11.8环境下运行,没有出现OOM(内存溢出)问题。

相关问题