vllm [Feature Request] Mixtral Offloading

7gyucuyw 于 2个月前发布在其他

关注(0)|答案(1)|浏览(80)

在论文https://arxiv.org/abs/2312.17238中提到了一种新的缓存技术。(GitHub:https://github.com/dvmazur/mixtral-offloading)
他们根据自己发现的模式，向缓存Maven引入了LRU缓存，并在计算下一层之前进行了推测性的猜测来预加载Maven。结果看起来相当有前途。我们是否可以在Mixtral上支持它？这对于在较小的GPU上运行非常有帮助。

vllm

来源：https://github.com/vllm-project/vllm/issues/2394

1条答案

按热度按时间

kx1ctssn1#

你好，
我也认为实施这个功能是有价值的。值得注意的是，这里有这个卸载技术的演示：https://github.com/dvmazur/mixtral-offloading/blob/master/notebooks/demo.ipynb
引用：“运行此笔记本电脑并生成一些较长的文本需要大约16 GB的显存和11 GB的RAM。”

赞(0）回复(0）举报 2个月前

我来回答

vllm [Feature Request] Mixtral Offloading

1条答案

相关问题

热门标签

最新问答