DeepSpeed-MII GPT2/Bert模型如何在MII中利用连续批处理功能?

wgxvkvu9  于 3个月前  发布在  其他
关注(0)|答案(1)|浏览(73)

你好,

我最近开始使用DeepSpeed-MII。当我阅读代码时,我发现我们通过遗留API支持GTP2/Bert,并使用DeepSpeed InferenceEngine代替InferenceEngineV2。在这种情况下,GPT2/Bert模型如何利用MII提供的新功能,例如连续批处理和阻塞KV缓存?

lhcgjxsq

lhcgjxsq1#

你好,@Jye-525。目前我们不支持使用GPT2/Bert模型进行连续批处理和阻塞KV。我们在文档中描述的FastGen功能仅支持此处列出的文本生成模型。

相关问题