CTranslate2 支持Facebook的新的无缝M4T(多语言+多模态)

uujelgoq  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(47)

Facebook刚刚发布了一个新的多模态模型,支持多种语言。我猜想它是NLLB的继任者。一个模型统治他们所有人。如果CT2支持这个模型,进一步减小大型模型的大小,那将会非常棒。如果我没记错的话,当我使用Whisper large和NLLB-200 medium时,大约使用了9-10GB的显存,而参数应该不到3B。切换到CT2s whisper large-v2和NLLB-200 medium(都是float16)后,我用了5-6GB的显存。我希望随着CT2对SeamlessM4T的支持,我们可以看到类似的改进,同时保持准确度损失可以忽略不计的多模态指标。

话虽如此,将来如果有SM4T的支持,你是否愿意为尽可能多的任务(如S2TT、T2TT等)包括原始SM4T和CT2的SM4T的指标?如果不行,也许可以提供一个脚本让我们自己分析?

感谢,希望在未来添加支持不会太难,其他人也能利用这个功能。

网站: https://ai.meta.com/resources/models-and-libraries/seamless-communication/
代码: https://github.com/facebookresearch/seamless_communication
论文: https://ai.meta.com/research/publications/seamless-m4t/
博客文章: https://ai.meta.com/blog/seamless-m4t/
一些指标

kyxcudwk

kyxcudwk1#

这个模型的语音转文字效果相当不错,这里有一个在线演示:https://seamless.metademolab.com/

yrwegjxp

yrwegjxp2#

演示总体看起来不错,但首先进行一个简单的测试:

ASR 100%准确
当 DeepL 和谷歌翻译 100%准确时,翻译是错误的。
TTS 很好,但翻译错误。
Meta 模型的问题(这在 NLLB 中已经存在)是,研究目标非常有用,但当它不是 SOTA 并且出现这样的故障时,最终你会不愿意使用这些。如果它们完全开源,那么社区可以为改进他们的工作做出贡献。
不要误解我的意思,这项工作仍然令人印象深刻。

pgccezyw

pgccezyw3#

在论文中,他们将其与级联方法(ASR,然后翻译,然后TTS)进行了比较。我没有仔细查看,这里的优点是它是一个模型,易于部署,支持35种语言。
对于TTS,除了少数几种语言外,很难找到质量相当的模型(可以与微软API相媲美)。无缝似乎在技术质量方面做得很好,但它微调的具体声音本可以更好。听起来他们使用了ljspeech来处理英语,他们本可以使用我们的Jenny数据集(https://youtu.be/JZWeYbtCisk?si=xfP-Km3ZFGRI7ZTZ&t=239)。:D

相关问题