[RFC]: 使用torch.compile的vLLM中的图形优化系统

r7s23pms 于 7个月前发布在其他

关注(0)|答案(3)|浏览(71)

动机。
从高层次来看，我们在Neural Magic正在为Torch Dynamo编写一个自定义编译器，以在vLLM中定义一个系统，我们可以在其中编写图变换。主要目标是在高级模型定义和某些性能关键的低级决策之间实现关注分离。这对于对模型定义具有特别侵入性的优化尤为重要，这些优化会破坏抽象、跨越层之间的边界，或者不是普遍有效或有用的。如果将这些优化作为模型定义的一部分进行，那么添加新模型就会变得困难得多。
我们正在为此系统的初始一组优化工作，详细说明在Proposed Passes部分中。

将量化操作融合到LayerNorm内核上(适用于fp8和int8,以及静态和动态量化)
融合包含GEMM、SiLU、Mul和量化操作的MLP部分
将Gemm + AllReduce + Layer Norm + Gemm重写为Fused Gemm-ReduceScatter + LayerNorm + Fused AllGather Gemm,以利用ByteDance的Flux内核

尽管这个系统在Torch Dynamo内部作为自定义编译器运行，但最好将其视为vLLM中的优化系统，而不是编译器。我们没有采用垂直编译堆栈的方式，通过IR的一系列层降低高级Tensor操作，而是采取了简单实用的方法，即改善vLLM的自定义内核生态系统，而不是取代它。
向前看，根据我们在Neural Magic的经验，以及DeepSparse中取得的成功，我们对如何将图优化融入vLLM以及它应该如何与PyTorch团队的torch.compile计划相结合有了看法。简而言之，我们认为：