根据WavLM论文:
(WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing)
他们使用了ECAPA-TDNN嵌入模型来进行下游任务:说话者验证。我搜索了一下,但没有找到可以使用该模型的实现。(WavLM嵌入由ECAPA-TDNN生成)?
例如:
import torch
from transformers import Wav2Vec2FeatureExtractor
from transformers import WavLMForXVector
import soundfile as sf
wav_tensor, sr = sf.read(r"nyfile.wav")
我没有看到嵌入是从ECAPA-TDNN还是从X-Vector生成的。
3条答案
按热度按时间o3imoua41#
你找到了解决这个问题的方法吗?
我认为这段代码在这里 https://github.com/microsoft/UniSpeech/blob/e3043e2021d49429a406be09b9b8432febcdec73/downstreams/speaker_verification/models/ecapa_tdnn.py 可用,但我没有找到任何检查点。目前很多论文都在使用WavLM-TDNN,所以我不确定我们错过了什么。它可能在某个地方可用。
p4rjhz4m2#
我也在寻找WavLM-TDNN的检查点,但找不到任何东西。我认为我们需要自己使用superb来训练它。然而,superb没有ecaptdnn代码。
fcipmucu3#
有任何更新吗?