我是NLP新手,使用的是与Wav2Vec2不同的预训练模型。我现在使用的是由Pytorch. https://github.com/pytorch/android-demo-app/blob/master/SpeechRecognition/create_wav2vec2.py提供的createWav2Vec2 py.
我从拥抱脸加载预训练模型,但在健全性检查期间,转录的文本是错误的
我在代码中更改的位置
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
至
model1 = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2-base-timit-demo-colab")
正确结果结果:我有好奇心在我身边在这一刻
但我得到了
Result: J <pad></s>DJ<pad>F</s>DJF<pad>JBJSN JKJCJ JFJO<pad>YLJCJ L<pad>HL<pad> F<pad>F</s> JC<pad>JHKJHLRFJ<pad>
有人能告诉我这里出了什么问题吗?
1条答案
按热度按时间xxls0lw81#
你的问题是https://github.com/pytorch/android-demo-app/blob/master/SpeechRecognition/create_wav2vec2.py中的字母表变量。你应该用https://huggingface.co/patrickvonplaten/wav2vec2-base-timit-demo-colab/blob/main/vocab.json替换它。你只需要使用dict的键作为list。
对于
<pad>
,您必须在您希望它作为<pad>
的标记器/处理器的加载中指定它