speechbrain.inference.enhancement 模块

指定语音增强模块的推理接口。

作者
  • Aku Rouhe 2021

  • Peter Plantinga 2021

  • Loren Lugosch 2020

  • Mirco Ravanelli 2020

  • Titouan Parcollet 2021

  • Abdel Heba 2021

  • Andreas Nautsch 2022, 2023

  • Pooneh Mousavi 2023

  • Sylvain de Langen 2023

  • Adel Moumen 2023

  • Pradnya Kandarkar 2023

摘要

SpectralMaskEnhancement

一个即用型语音增强模型。

WaveformEnhancement

一个即用型语音增强模型。

参考

class speechbrain.inference.enhancement.SpectralMaskEnhancement(modules=None, hparams=None, run_opts=None, freeze_params=True)[source]

基类: Pretrained

一个即用型语音增强模型。

参数:

Pretrained. ()

示例

>>> import torch
>>> from speechbrain.inference.enhancement import SpectralMaskEnhancement
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> enhancer = SpectralMaskEnhancement.from_hparams(
...     source="speechbrain/metricgan-plus-voicebank",
...     savedir=tmpdir,
... )
>>> enhanced = enhancer.enhance_file(
...     "speechbrain/metricgan-plus-voicebank/example.wav"
... )
HPARAMS_NEEDED = ['compute_stft', 'spectral_magnitude', 'resynth']
MODULES_NEEDED = ['enhance_model']
compute_features(wavs)[source]

计算用于掩码的对数频谱幅度特征。

参数:

wavs (torch.Tensor) – 要转换为对数频谱幅度的波形批次。

返回:

feats – 对数频谱幅度特征。

返回类型:

torch.Tensor

enhance_batch(noisy, lengths=None)[source]

增强一批噪声波形。

参数:
  • noisy (torch.Tensor) – 要执行增强的波形批次。

  • lengths (torch.Tensor) – 如果增强模型处理波形长度,则为波形的长度。

返回:

wavs – 与输入形状相同的增强波形批次。

返回类型:

torch.Tensor

enhance_file(filename, output_filename=None, **kwargs)[source]

增强 wav 文件。

参数:
  • filename (str) – 要加载以进行增强的文件在磁盘上的位置。

  • output_filename (str) – 如果提供,将增强数据写入此文件。

  • **kwargs (dict) – 转发给 load_audio 的参数。

返回:

wav – 增强的波形。

返回类型:

torch.Tensor

class speechbrain.inference.enhancement.WaveformEnhancement(modules=None, hparams=None, run_opts=None, freeze_params=True)[source]

基类: Pretrained

一个即用型语音增强模型。

参数:

Pretrained. ()

示例

>>> from speechbrain.inference.enhancement import WaveformEnhancement
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> enhancer = WaveformEnhancement.from_hparams(
...     source="speechbrain/mtl-mimic-voicebank",
...     savedir=tmpdir,
... )
>>> enhanced = enhancer.enhance_file(
...     "speechbrain/mtl-mimic-voicebank/example.wav"
... )
MODULES_NEEDED = ['enhance_model']
enhance_batch(noisy, lengths=None)[source]

增强一批噪声波形。

参数:
  • noisy (torch.Tensor) – 要执行增强的波形批次。

  • lengths (torch.Tensor) – 如果增强模型处理波形长度,则为波形的长度。

返回:

与输入形状相同的增强波形批次。

返回类型:

torch.Tensor

enhance_file(filename, output_filename=None, **kwargs)[source]

增强 wav 文件。

参数:
  • filename (str) – 要加载以进行增强的文件在磁盘上的位置。

  • output_filename (str) – 如果提供,将增强数据写入此文件。

  • **kwargs (dict) – 转发给 load_audio 的参数

返回:

enhanced – 增强的波形。

返回类型:

torch.Tensor

forward(noisy, lengths=None)[source]

对噪声输入运行增强