DeepSpeed-MII 支持FLAN-T5

olhwl3o2  于 3个月前  发布在  其他
关注(0)|答案(3)|浏览(80)

我看到T5没有在支持的Huggingface Transformers模型列表中。是否有计划/预计何时会将T5家族添加进来?FLAN-T5是一个非常强大的零/少样本指令提示LLM。我目前正在为使用deepspeed-inference进行托管构建一个粗糙的实现,但将其原生地支持在deepspeed-mii中将是理想的。

9w11ddsr

9w11ddsr1#

我们确实支持T5家族与DeepSpeed-Inference一起使用自定义注入策略(请参见此DeepSpeed单元测试)。然而,我们尚未将此支持引入MII。我们计划将来添加此功能。如果您愿意提交PR,我们也欢迎外部贡献!

rks48beu

rks48beu2#

请关注这个PR,它目前正在进行中,以获得更好的T5支持:microsoft/DeepSpeed#2451

ippsafx7

ippsafx73#

假设PR确实被合并了,它是否也支持Long T5?

相关问题