speechbrain.inference.enhancement 模块

指定语音增强模块的推理接口。

作者

Aku Rouhe 2021
Peter Plantinga 2021
Loren Lugosch 2020
Mirco Ravanelli 2020
Titouan Parcollet 2021
Abdel Heba 2021
Andreas Nautsch 2022, 2023
Pooneh Mousavi 2023
Sylvain de Langen 2023
Adel Moumen 2023
Pradnya Kandarkar 2023

摘要

类

`SpectralMaskEnhancement`	一个即用型语音增强模型。
`WaveformEnhancement`	一个即用型语音增强模型。

参考

class speechbrain.inference.enhancement.SpectralMaskEnhancement(modules=None, hparams=None, run_opts=None, freeze_params=True)[source]

基类: Pretrained

一个即用型语音增强模型。

参数:: Pretrained. (见)

示例

>>> import torch
>>> from speechbrain.inference.enhancement import SpectralMaskEnhancement
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> enhancer = SpectralMaskEnhancement.from_hparams(
...     source="speechbrain/metricgan-plus-voicebank",
...     savedir=tmpdir,
... )
>>> enhanced = enhancer.enhance_file(
...     "speechbrain/metricgan-plus-voicebank/example.wav"
... )

HPARAMS_NEEDED = ['compute_stft', 'spectral_magnitude', 'resynth']

MODULES_NEEDED = ['enhance_model']

compute_features(wavs)[source]

计算用于掩码的对数频谱幅度特征。

参数:: wavs (torch.Tensor) – 要转换为对数频谱幅度的波形批次。
返回:: feats – 对数频谱幅度特征。
返回类型:: torch.Tensor

enhance_batch(noisy, lengths=None)[source]

增强一批噪声波形。

参数:

noisy (torch.Tensor) – 要执行增强的波形批次。
lengths (torch.Tensor) – 如果增强模型处理波形长度，则为波形的长度。

返回:

wavs – 与输入形状相同的增强波形批次。

返回类型:

torch.Tensor

enhance_file(filename, output_filename=None, **kwargs)[source]

增强 wav 文件。

参数:

filename (str) – 要加载以进行增强的文件在磁盘上的位置。
output_filename (str) – 如果提供，将增强数据写入此文件。
**kwargs (dict) – 转发给 load_audio 的参数。

返回:

wav – 增强的波形。

返回类型:

torch.Tensor

class speechbrain.inference.enhancement.WaveformEnhancement(modules=None, hparams=None, run_opts=None, freeze_params=True)[source]

基类: Pretrained

一个即用型语音增强模型。

参数:: Pretrained. (见)

示例

>>> from speechbrain.inference.enhancement import WaveformEnhancement
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> enhancer = WaveformEnhancement.from_hparams(
...     source="speechbrain/mtl-mimic-voicebank",
...     savedir=tmpdir,
... )
>>> enhanced = enhancer.enhance_file(
...     "speechbrain/mtl-mimic-voicebank/example.wav"
... )

MODULES_NEEDED = ['enhance_model']

enhance_batch(noisy, lengths=None)[source]

增强一批噪声波形。

参数:

noisy (torch.Tensor) – 要执行增强的波形批次。
lengths (torch.Tensor) – 如果增强模型处理波形长度，则为波形的长度。

返回:

与输入形状相同的增强波形批次。

返回类型:

torch.Tensor

enhance_file(filename, output_filename=None, **kwargs)[source]

增强 wav 文件。

参数:

filename (str) – 要加载以进行增强的文件在磁盘上的位置。
output_filename (str) – 如果提供，将增强数据写入此文件。
**kwargs (dict) – 转发给 load_audio 的参数

返回:

enhanced – 增强的波形。

返回类型:

torch.Tensor

forward(noisy, lengths=None)[source]: 对噪声输入运行增强