pytorch “语音转文本”使用huggingface预训练模型,但结果不同=>Wav2Vec2与其他

bakd9h0s  于 2023-01-20  发布在  其他
关注(0)|答案(1)|浏览(252)

我是NLP新手,使用的是与Wav2Vec2不同的预训练模型。我现在使用的是由Pytorch. https://github.com/pytorch/android-demo-app/blob/master/SpeechRecognition/create_wav2vec2.py提供的createWav2Vec2 py.
我从拥抱脸加载预训练模型,但在健全性检查期间,转录的文本是错误的
我在代码中更改的位置

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

model1 = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2-base-timit-demo-colab")

正确结果结果:我有好奇心在我身边在这一刻
但我得到了

Result: J <pad></s>DJ<pad>F</s>DJF<pad>JBJSN JKJCJ JFJO<pad>YLJCJ L<pad>HL<pad> F<pad>F</s> JC<pad>JHKJHLRFJ<pad>

有人能告诉我这里出了什么问题吗?

xxls0lw8

xxls0lw81#

你的问题是https://github.com/pytorch/android-demo-app/blob/master/SpeechRecognition/create_wav2vec2.py中的字母表变量。你应该用https://huggingface.co/patrickvonplaten/wav2vec2-base-timit-demo-colab/blob/main/vocab.json替换它。你只需要使用dict的键作为list。
对于<pad>,您必须在您希望它作为<pad>的标记器/处理器的加载中指定它

相关问题