用户指南
SpeechBrain 是一个基于 PyTorch 的开源一体化语音工具包。本文档提供了安装步骤、教程和 API 文档,以帮助用户开发他们的项目。
许可证注意事项 (Apache 2.0)
SpeechBrain 根据 Apache 许可证 2.0 版本 发布。Apache 许可证是一种流行的类似 BSD 的许可证。SpeechBrain 可以免费重新分发,即使用于商业目的,但您不能去除许可证头(在某些情况下,您可能必须分发许可证文档)。Apache 不是像 GPL 那样的“病毒式”许可证,它会强制您发布对源代码的修改。另请注意,本项目与 Apache 基金会没有任何关联,只是使用了相同的许可证条款。
这是一个社区项目,这意味着讨论在社区范围内进行,而决策由 Ravanelli 博士和 Parcollet 博士根据社区意见做出。没有法律机构作为 SpeechBrain 的所有者。此外,由于 Apache 许可证,任何不同意项目运行方式的人都可以分叉并启动新的工具包。
引用 SpeechBrain (BibTeX)
如果您在您的研究或业务中使用 SpeechBrain,请使用以下 BibTeX 条目引用它
@misc{speechbrainV1,
title={Open-Source Conversational AI with {SpeechBrain} 1.0},
author={Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve},
year={2024},
eprint={2407.00463},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2407.00463},
}
@misc{speechbrain,
title={SpeechBrain: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
我们为初学者和高级用户提供了完整的以下 Jupyter Notebook 教程!您可以在文档中查看它们,在 Google Colab 中运行它们,或使用Jupyter Notebook在本地运行它们。
API
全面的语音处理工具包 |
|
用于对齐文本和语音信号的工具 |
|
包含各种数据增强技术的包 |
|
数据加载和数据集预处理 |
|
包含不同解码器(ctc、beamsearch 等)的包 |
|
导入所有推理接口 |
|
|
|
定义语言模型的包 |
|
定义常见块(DNN 模型、处理等)的包 |
|
包含不同神经网络层的包 |
|
包含各种语音处理技术的包 |
|
定义 SentencePiece 分词器的包 |
|
包含各种工具(准确率、检查点等)的包 |
|
该库收集了用于 hyperpyyaml 加载的实用程序 |