是否有计划支持推理异构编码器-解码器架构,其中我们使用基于Transformer的编码器和基于RNN/LSTM的解码器?希望将此作为新的功能请求提交。
nom7f22z1#
您是否还考虑过使用较少解码器层进行训练的Transformer模型?CTranslate2可以运行具有不同编码器和解码器层数的模型。
s1ag04yj2#
是的,我们已经在使用深度编码器和浅层解码器的架构。我们想要实验这种架构在编码器和解码器堆栈具有各自独立架构的情况下的表现。
guz6ccqo3#
我们正在使用Marian(并使用Bergamot fork进行量化)为Firefox翻译功能训练模型。解码器是一个RNN(参见https://aclanthology.org/2020.ngt-1.26/)。如果能看到CTranslate2的性能会如何,那就太好了(我们已经在计划使用它来加速带有教师模型的翻译:mozilla/firefox-translations-training#165)。
vshtjzan4#
目前没有支持基于RNN的解码器的计划。您正在使用哪种框架来训练这些模型?
wpcxdonn5#
好的!我们将使用Fairseq作为学生模型。为了更快的推理,我们想要检查是否可以将CTranslate2转换为支持VMAP的版本。我也愿意贡献,但我不确定从哪里开始。
6jjcrrmo6#
为什么不使用完整的Transformer模型来为学生服务?这个模型将直接与CTranslate2兼容。
q1qsirdb7#
你好@guillaumekln,目前我们正在使用Transformer作为编码器和解码器的模型。我们希望采用混合模型,即Transformer(编码器)-RNN(解码器)网络,以进一步降低推理延迟并提高吞吐量。
dddzy1tm8#
@harishankar-gopalan 你有没有找到关于Transformer(编码器)-RNN(解码器)网络的代码?目前Transformer的解码速度有点慢,我也需要这样的代码框架。
vdzxcuhz9#
Hi @Andrewlesson,我们打算使用自定义的Fairseq模型,很可能在Fairseq中定义一个自定义架构。如果那不起作用,我们将不得不使用普通的PyTorch。
9条答案
按热度按时间nom7f22z1#
您是否还考虑过使用较少解码器层进行训练的Transformer模型?CTranslate2可以运行具有不同编码器和解码器层数的模型。
s1ag04yj2#
是的,我们已经在使用深度编码器和浅层解码器的架构。我们想要实验这种架构在编码器和解码器堆栈具有各自独立架构的情况下的表现。
guz6ccqo3#
我们正在使用Marian(并使用Bergamot fork进行量化)为Firefox翻译功能训练模型。解码器是一个RNN(参见https://aclanthology.org/2020.ngt-1.26/)。
如果能看到CTranslate2的性能会如何,那就太好了(我们已经在计划使用它来加速带有教师模型的翻译:mozilla/firefox-translations-training#165)。
vshtjzan4#
目前没有支持基于RNN的解码器的计划。
您正在使用哪种框架来训练这些模型?
wpcxdonn5#
好的!我们将使用Fairseq作为学生模型。为了更快的推理,我们想要检查是否可以将CTranslate2转换为支持VMAP的版本。
我也愿意贡献,但我不确定从哪里开始。
6jjcrrmo6#
为什么不使用完整的Transformer模型来为学生服务?这个模型将直接与CTranslate2兼容。
q1qsirdb7#
你好@guillaumekln,目前我们正在使用Transformer作为编码器和解码器的模型。我们希望采用混合模型,即Transformer(编码器)-RNN(解码器)网络,以进一步降低推理延迟并提高吞吐量。
dddzy1tm8#
你好@guillaumekln,目前我们正在使用Transformer作为编码器和解码器的模型。我们希望采用混合模型,即Transformer(编码器)-RNN(解码器)网络,以进一步降低推理延迟并提高吞吐量。
@harishankar-gopalan 你有没有找到关于Transformer(编码器)-RNN(解码器)网络的代码?目前Transformer的解码速度有点慢,我也需要这样的代码框架。
vdzxcuhz9#
Hi @Andrewlesson,我们打算使用自定义的Fairseq模型,很可能在Fairseq中定义一个自定义架构。如果那不起作用,我们将不得不使用普通的PyTorch。