用户指南
SpeechBrain 是一个基于 PyTorch 的开源一体化语音工具包。本文档提供了必要的安装步骤、教程和 API 文档,以帮助用户开发其项目。
许可注意事项 (Apache 2.0)
SpeechBrain 基于 Apache License, version 2.0 发布。Apache 许可是流行的类似 BSD 的许可。SpeechBrain 可以免费再分发,即使用于商业目的,但您不能移除许可头部信息(在某些情况下,您可能需要分发许可文档)。与 GPL 强制您发布源代码修改不同,Apache 不是病毒式许可。另请注意,本项目与 Apache 基金会无关,我们只是使用了相同的许可条款。
这是一个社区项目,这意味着讨论在社区范围内进行,而决策由 Ravanelli 博士和 Parcollet 博士在尊重社区意见的基础上做出。没有任何法律机构与 SpeechBrain 相关联作为所有者。此外,由于 Apache 许可,任何不同意项目运营方式的人都可以 fork 它并启动一个新的工具包。
引用 SpeechBrain (BibTeX)
如果您在研究或商业中使用 SpeechBrain,请使用以下 BibTeX 条目引用它
@misc{speechbrainV1,
title={Open-Source Conversational AI with {SpeechBrain} 1.0},
author={Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve},
year={2024},
eprint={2407.00463},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2407.00463},
}
@misc{speechbrain,
title={SpeechBrain: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
我们为初学者和高级用户提供了完整的Jupyter Notebook 教程(见下方)!您可以在文档中查看它们,在 Google Colab 中运行它们,或者使用 Jupyter Notebook 在本地运行它们。
提示与技巧
API
全面的语音处理工具包 |
|
用于对齐文本和语音信号的工具 |
|
包含各种数据增强技术的包 |
|
数据加载和数据集预处理 |
|
包含不同解码器(ctc, beamsearch 等)的包 |
|
导入所有推理接口 |
|
|
|
定义语言模型的包 |
|
定义常用块(DNN 模型、处理等)的包 |
|
包含不同神经网络层的包 |
|
包含各种语音处理技术的包 |
|
定义 SentencePiece 分词器的包 |
|
包含各种工具(准确率、检查点等)的包 |
|
该库收集了用于 hyperpyyaml 加载的实用工具 |