SpeechBrain 基础
🔗 SpeechBrain 简介
Ravanelli M. |
2021年2月 |
难度:简单 |
时间:10分钟 |
SpeechBrain 是一个基于 PyTorch 的开源一体化语音工具包。它旨在让语音技术的研究和开发变得更容易。除了我们的文档,本教程将为你提供开始使用 SpeechBrain 进行项目所需的所有基本元素。
🔗 SpeechBrain 能做什么?
Ravanelli M. |
2021年1月 |
难度:简单 |
时间:10分钟 |
在本教程中,我们将对 SpeechBrain 当前支持的语音任务进行高层描述。我们还将展示如何在语音识别、语音分离、说话人确认等应用中执行推断。
🔗 Brain 类
Plantinga P. |
2021年1月 |
难度:简单 |
时间:10分钟 |
深度学习的一个关键组成部分是多次迭代数据集并执行参数更新。这个过程有时被称为“训练循环”,并且该循环通常有许多阶段。
SpeechBrain 提供了一个方便的框架来组织训练循环,形式是一个名为“Brain”的类,实现在 speechbrain/core.py
中。在每个 recipe 中,我们都会继承这个类,并重写默认实现不符合该特定 recipe 要求的方法。
🔗 HyperPyYAML 教程
Plantinga P. |
2021年1月 |
难度:简单 |
时间:15分钟 |
任何深度学习流程中不可或缺的一部分是超参数和其他元数据的定义。这些数据与深度学习算法相结合,控制着流程的各个方面,例如模型架构、训练和解码。
在 SpeechBrain 中,我们决定超参数和学习算法之间的区别应该在工具包的结构中明确体现,因此我们将 recipe 分为两个主要文件:train.py
和 hyperparams.yaml
。 hyperparams.yaml
文件采用 SpeechBrain 开发的格式,我们称之为“HyperPyYAML”。我们选择扩展 YAML,因为它是一种高度可读的数据序列化格式。通过扩展这种已经非常有用的格式,我们能够创建一个扩展的超参数定义,同时保持我们的实际实验代码精简且高度可读。
🔗 数据加载
Cornell S. & Rouhe A. |
2021年1月 |
难度:中等 |
时间:20分钟 |
设置高效的数据加载流程通常是一项繁琐的任务,涉及创建示例、定义你的 torch.utils.data.Dataset 类以及不同的数据采样和增强策略。在 SpeechBrain 中,我们提供了高效的抽象来简化这个耗时的过程,同时不牺牲灵活性。事实上,我们的数据流程是围绕 PyTorch 构建的。
🔗 检查点
Rouhe A. |
2021年2月 |
难度:简单 |
时间:15分钟 |
检查点是指在特定时间点保存模型和所有其他必要的状态信息(例如优化器参数、当前 epoch 和迭代次数)。