神经网络架构

🔗 使用 SpeechBrain 和 HuggingFace 微调或使用 Whisper、wav2vec2、HuBERT 等模型

Parcollet T. & Moumen A.

2022 年 12 月

难度:中等

时间:20 分钟

🔗 Google Colab

本教程介绍如何结合(使用和微调)来自 HuggingFace 的预训练模型。任何集成到 HuggingFace transformers 接口的 wav2vec 2.0 / HuBERT / WavLM 或 Whisper 模型都可以连接到 SpeechBrain,以处理语音相关任务:自动语音识别、说话人识别、口语理解等。

🔗 用于更快、低显存微调的神经网络适配器

Plantinga P.

2024 年 9 月

难度:简单

时间:20 分钟

🔗 Google Colab

本教程介绍 SpeechBrain 中适配器(如 LoRA)的实现。这包括如何将 SpeechBrain 实现的适配器、自定义适配器以及 PEFT 等库中的适配器集成到预训练模型中。

🔗 复数和四元数神经网络

Parcollet T.

2021 年 2 月

难度:中等

时间:30 分钟

🔗 Google Colab

本教程演示如何在语音技术中使用 SpeechBrain 实现的复数值和四元数值神经网络。它涵盖了高维表示的基础知识以及相关的神经网络层:线性层、卷积层、循环层和归一化层。

🔗 循环神经网络

Ravanelli M.

2021 年 2 月

难度:简单

时间:30 分钟

🔗 Google Colab

循环神经网络 (RNNs) 提供了一种自然的方式来处理序列。本教程演示如何使用 SpeechBrain 实现的 RNN,包括 LSTM、GRU、RNN 和 LiGRU——一种专门为语音相关任务设计的循环单元。RNN 是许多序列到序列模型的核心。

🔗 使用 Conformer 进行流式语音识别

de Langen S.

2024 年 9 月

难度:中等

时间:60 分钟以上

🔗 Google Colab

自动语音识别 (ASR) 模型通常只设计用于转录整个大段音频,不适用于需要低延迟、长时转录的场景,例如直播转录。

本教程介绍了动态分块训练方法以及可以应用于 Conformer 模型以使其可流化的架构更改。它介绍了 SpeechBrain 可以为你提供的训练和推理工具。如果你有兴趣训练和理解自己的流式模型,或者即使你想探索改进的流式架构,这都是一个很好的起点。