我看到T5没有在支持的Huggingface Transformers模型列表中。是否有计划/预计何时会将T5家族添加进来?FLAN-T5是一个非常强大的零/少样本指令提示LLM。我目前正在为使用deepspeed-inference进行托管构建一个粗糙的实现,但将其原生地支持在deepspeed-mii中将是理想的。
9w11ddsr1#
我们确实支持T5家族与DeepSpeed-Inference一起使用自定义注入策略(请参见此DeepSpeed单元测试)。然而,我们尚未将此支持引入MII。我们计划将来添加此功能。如果您愿意提交PR,我们也欢迎外部贡献!
rks48beu2#
请关注这个PR,它目前正在进行中,以获得更好的T5支持:microsoft/DeepSpeed#2451
ippsafx73#
假设PR确实被合并了,它是否也支持Long T5?
3条答案
按热度按时间9w11ddsr1#
我们确实支持T5家族与DeepSpeed-Inference一起使用自定义注入策略(请参见此DeepSpeed单元测试)。然而,我们尚未将此支持引入MII。我们计划将来添加此功能。如果您愿意提交PR,我们也欢迎外部贡献!
rks48beu2#
请关注这个PR,它目前正在进行中,以获得更好的T5支持:microsoft/DeepSpeed#2451
ippsafx73#
假设PR确实被合并了,它是否也支持Long T5?