mlc-llm [问题]使用多个流进行并行计算？

l3zydbqr 于 5个月前发布在其他

关注(0)|答案(1)|浏览(112)

❓ 一般性问题

你好，在phi模型中，注意力和MLP模块可以并行执行，因为它们之间没有依赖关系。在下面的代码中，self.mixer和self.mlp可以并行执行。

def forward(self, hidden_states: Tensor, paged_kv_cache: PagedKVCache, layer_id: int):
        residual = hidden_states
        hidden_states = self.ln(hidden_states)

        with tp.shard_bias(self.mixer.out_proj, self.tensor_parallel_shards), tp.shard_bias(
            self.mlp.fc2, self.tensor_parallel_shards
        ):
            attn_outputs = self.mixer(hidden_states, paged_kv_cache, layer_id)
            feed_forward_hidden_states = self.mlp(hidden_states)

        hidden_states = self._apply_parallel_residual(
            attn_outputs, feed_forward_hidden_states, residual
        )

        return hidden_states

问题

在上面的代码中，self.mixer和self.mlp是顺序执行的吗？
如果是，你知道为什么它是顺序计算(因为性能没有提高)吗？
如果是，有没有办法将它们并行化吗？比如使用cuda多流(例如，torch.cuda.Stream,torch.cuda.Event) ...我只是想知道mlc-llm是否可以并行化独立的计算(不考虑上述代码的性能)。

mlc-llm

来源：https://github.com/mlc-ai/mlc-llm/issues/2332