speechbrain.inference.interpretability 模块

指定可解释性模块的推理接口。

作者

Aku Rouhe 2021
Peter Plantinga 2021
Loren Lugosch 2020
Mirco Ravanelli 2020
Titouan Parcollet 2021
Abdel Heba 2021
Andreas Nautsch 2022, 2023
Pooneh Mousavi 2023
Sylvain de Langen 2023
Adel Moumen 2023
Pradnya Kandarkar 2023

摘要

类

PIQAudioInterpreter

该类实现了用于音频分类器的 PIQ 事后解释器的接口。

参考

class speechbrain.inference.interpretability.PIQAudioInterpreter(*args, **kwargs)[源代码]

基类: Pretrained

该类实现了用于音频分类器的 PIQ 事后解释器的接口。

参数:

*args (tuple)
**kwargs (dict) – 参数被转发到 Pretrained 父类。

示例

>>> from speechbrain.inference.interpretability import PIQAudioInterpreter
>>> tmpdir = getfixture("tmpdir")
>>> interpreter = PIQAudioInterpreter.from_hparams(
...     source="speechbrain/PIQ-ESC50",
...     savedir=tmpdir,
... )
>>> signal = torch.randn(1, 16000)
>>> interpretation, _ = interpreter.interpret_batch(signal)

preprocess(wavs)[源代码]: 预处理 wavs 以计算 STFTs

classifier_forward(X_stft_logpower)[源代码]: 分类器的前向传播

invert_stft_with_phase(X_int, X_stft_phase)[源代码]: 根据相位反转 STFT 频谱。

interpret_batch(wavs)[源代码]

将给定的音频分类到给定的标签集中。它还提供音频域中的解释。

参数:

wavs (torch.Tensor) – 波形批次 [batch, time, channels] 或 [batch, time]，取决于模型。确保采样率是 fs=16000 Hz。

返回:

x_int_sound_domain (torch.Tensor) – 波形域中的解释
text_lab (str) – 分类文本标签

interpret_file(path, savedir=None)[源代码]

将给定的音频文件分类到给定的标签集中。它还提供音频域中的解释。

参数:

path (str) – 要分类的音频文件路径。
savedir (str) – 缓存目录路径。

返回:

x_int_sound_domain (torch.Tensor) – 波形域中的解释
text_lab (str) – 分类文本标签
fs_model (int) – 模型的采样频率。用于保存音频。

forward(wavs, wav_lens=None)[源代码]: 运行分类