vllm Use LRU cache for CUDA Graphs

qrjkbowd  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(24)

另一种节省内存的方法是使用LRU缓存来管理这个Map,并按需捕获它。

  • 最初由@scv119在#1926(评论)中发布*
p1iqtdky

p1iqtdky1#

WoosukKwon,这项工作已经完成了吗?

相关问题