vllm [Feature Request] Mixtral Offloading

7gyucuyw  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(80)

在论文https://arxiv.org/abs/2312.17238中提到了一种新的缓存技术。(GitHub:https://github.com/dvmazur/mixtral-offloading)
他们根据自己发现的模式,向缓存Maven引入了LRU缓存,并在计算下一层之前进行了推测性的猜测来预加载Maven。结果看起来相当有前途。我们是否可以在Mixtral上支持它?这对于在较小的GPU上运行非常有帮助。

kx1ctssn

kx1ctssn1#

你好,
我也认为实施这个功能是有价值的。值得注意的是,这里有这个卸载技术的演示:https://github.com/dvmazur/mixtral-offloading/blob/master/notebooks/demo.ipynb
引用:“运行此笔记本电脑并生成一些较长的文本需要大约16 GB的显存和11 GB的RAM。”

相关问题