speechbrain.inference.speaker 模块

指定说话人确认模块的推理接口。

作者
  • Aku Rouhe 2021

  • Peter Plantinga 2021

  • Loren Lugosch 2020

  • Mirco Ravanelli 2020

  • Titouan Parcollet 2021

  • Abdel Heba 2021

  • Andreas Nautsch 2022, 2023

  • Pooneh Mousavi 2023

  • Sylvain de Langen 2023

  • Adel Moumen 2023

  • Pradnya Kandarkar 2023

摘要

SpeakerRecognition

一个用于说话人确认的即用型模型。

参考

class speechbrain.inference.speaker.SpeakerRecognition(*args, **kwargs)[source]

基类: EncoderClassifier

一个用于说话人确认的即用型模型。它可以用于使用 verify_batch() 执行说话人确认。

参数:
  • *args (tuple)

  • **kwargs (dict) – 参数转发给 Pretrained 父类。

示例

>>> import torchaudio
>>> from speechbrain.inference.speaker import SpeakerRecognition
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> verification = SpeakerRecognition.from_hparams(
...     source="speechbrain/spkrec-ecapa-voxceleb",
...     savedir=tmpdir,
... )
>>> # Perform verification
>>> signal, fs = torchaudio.load("tests/samples/single-mic/example1.wav")
>>> signal2, fs = torchaudio.load("tests/samples/single-mic/example2.flac")
>>> score, prediction = verification.verify_batch(signal, signal2)
MODULES_NEEDED = ['compute_features', 'mean_var_norm', 'embedding_model', 'mean_var_norm_emb']
verify_batch(wavs1, wavs2, wav1_lens=None, wav2_lens=None, threshold=0.25)[source]

使用余弦距离执行说话人确认。

它返回得分和决定(0 表示不同说话人,1 表示相同说话人)。

参数:
  • wavs1 (Torch.Tensor) – 包含语音波形1的 torch.Tensor (batch, time)。确保采样率 fs=16000 Hz。

  • wavs2 (Torch.Tensor) – 包含语音波形2的 torch.Tensor (batch, time)。确保采样率 fs=16000 Hz。

  • wav1_lens (Torch.Tensor) – 包含每个句子相对长度的 torch.Tensor (例如,[0.8 0.6 1.0])

  • wav2_lens (Torch.Tensor) – 包含每个句子相对长度的 torch.Tensor (例如,[0.8 0.6 1.0])

  • threshold (Float) – 应用于余弦距离的阈值,用于决定说话人是不同 (0) 还是相同 (1)。

返回值:

  • score – 与二进制确认输出(余弦距离)关联的得分。

  • prediction – 如果输入的两个信号来自同一个说话人,则预测为 1,否则为 0。

verify_files(path_x, path_y, **kwargs)[source]

使用余弦距离进行说话人确认

返回得分和决定(0 表示不同说话人,1 表示相同说话人)。

参数:
  • path_x (str) – 文件 x 的路径

  • path_y (str) – 文件 y 的路径

  • **kwargs (dict) – 传递给 load_audio 的参数

返回值:

  • score – 与二进制确认输出(余弦距离)关联的得分。

  • prediction – 如果输入的两个信号来自同一个说话人,则预测为 1,否则为 0。