text-generation-inference 计划/潜在的重大工作 ```markdown 计划/潜在的重大工作 ```

dl5txlt9  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(85)
  • Fp8 kv缓存
  • Kv缓存前缀重用
  • 受限制的语法加速
  • torch.compile 类似于加速
  • 简单的一行代码 pip install
  • 支持多LoRa(类似于lorax)
  • Marlin量化
  • Exl2量化(非gptq 2,3,4.5 bpw)
  • 添加更多关于轻松设置生产Grafana Jmeter 板的文档/帮助。
waxmsbnn

waxmsbnn1#

顺便说一下,在使用LMDeploy的Llama2-70B AWQ模型和4位kv缓存进行内部评估时,我基本上没有遇到性能下降的问题。他们这里有一些公开的评估数据:

这在KV缓存前缀缓存方面变得非常有利,因为您可以将两倍于并发聊天数的数据存储在VRAM中,这极大地提高了我的缓存命中率。
总的来说,通过4位KV缓存和前缀缓存,我在现实世界中实现了约4倍的成本降低。在尝试之前,我没想到会达到这样的效果。
想知道FP8 KV缓存和前缀缓存/重用是否有任何预期的时间表?也就是说,如果计划尽快实施,或者至少还有几个月的时间。

lb3vh1jj

lb3vh1jj2#

这个问题已经过期,因为它已经打开了30天,没有活动。请移除过期标签或评论,否则将在5天内关闭。

相关问题