unilm 如何为说话者验证加载WavLM ECAPA-TDNN嵌入?

tmb3ates  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(53)

根据WavLM论文:
(WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing)
他们使用了ECAPA-TDNN嵌入模型来进行下游任务:说话者验证。我搜索了一下,但没有找到可以使用该模型的实现。(WavLM嵌入由ECAPA-TDNN生成)?
例如:

import torch
from transformers import Wav2Vec2FeatureExtractor
from transformers import WavLMForXVector
import soundfile as sf
wav_tensor, sr = sf.read(r"nyfile.wav")

我没有看到嵌入是从ECAPA-TDNN还是从X-Vector生成的。

o3imoua4

o3imoua41#

你找到了解决这个问题的方法吗?
我认为这段代码在这里 https://github.com/microsoft/UniSpeech/blob/e3043e2021d49429a406be09b9b8432febcdec73/downstreams/speaker_verification/models/ecapa_tdnn.py 可用,但我没有找到任何检查点。目前很多论文都在使用WavLM-TDNN,所以我不确定我们错过了什么。它可能在某个地方可用。

p4rjhz4m

p4rjhz4m2#

我也在寻找WavLM-TDNN的检查点,但找不到任何东西。我认为我们需要自己使用superb来训练它。然而,superb没有ecaptdnn代码。

fcipmucu

fcipmucu3#

有任何更新吗?

相关问题