speechbrain.lobes.models
定义神经网络模型 (CRDNN, Xvectors 等) 的包
支持 BEST RQ 训练的几个组件,如原始论文所述:https://arxiv.org/pdf/2202.01855。 |
|
卷积、循环和全连接网络的组合。 |
|
此文件实现了来自 https://arxiv.org/abs/1912.10211 的 CNN14 模型 |
|
SpeechBrain 实现的 ContextNet,来自 https://arxiv.org/pdf/2005.03191.pdf |
|
用于 DIFFWAVE 的神经网络模块:《DIFFWAVE:一种用于音频合成的多功能扩散模型》 |
|
一个流行的说话人识别和分割模型。 |
|
这个 lobes 模块复制了 ESPNET v1 中首次引入的编码器 |
|
用于语音增强的 Wide ResNet。 |
|
用于 FastSpeech 2 的神经网络模块:《FastSpeech 2: 快速高质量端到端文本到语音合成模型》 作者 * Sathvik Udupa 2022 * Pradnya Kandarkar 2023 * Yingzhi Wang 2023 |
|
用于 HiFi-GAN 的神经网络模块:《HiFi-GAN: 用于高效高保真语音合成的生成对抗网络》 |
|
此文件实现了实现 Listen-to-Interpret (L2I) 解释方法所需的类和函数,来自 https://arxiv.org/abs/2202.11479v2 |
|
用于 Zero-Shot Multi-Speaker Tacotron2 端到端神经网络文本到语音 (TTS) 模型的神经网络模块 |
|
MetricGAN 中使用的生成器和判别器 |
|
MetricGAN-U 中使用的生成器和判别器 |
|
此文件实现了通过量化实现 Posthoc 解释所需的类和函数。 |
|
循环语言模型的实现。 |
|
用于说话人验证的 PreActivated ResNet |
|
用于 Tacotron2 端到端神经网络文本到语音 (TTS) 模型的神经网络模块 |
|
用于简单测试的标准神经网络。 |
|
一个流行的说话人识别和分割模型。 |
|
此 lobes 模块支持集成预训练的 BEATs:《使用声学分词器的音频预训练》 |
|
一个流行的语音分离模型的实现。 |
|
这是一个模块,用于组合带或不带残差连接的卷积(深度可分离)编码器。 |
|
支持双路径语音分离的库。 |
|
此 lobes 模块支持集成 fairseq 预训练的 wav2vec 模型。 |
|
此文件确保指向 kmeans 的旧链接仍然有效,同时提供弃用警告 |
|
用于 Resource-Efficient Sepformer 的库。 |
|
此文件包含两个 PyTorch 模块,它们共同构成了 SEGAN 模型架构(基于论文:Pascual 等人,https://arxiv.org/pdf/1703.09452.pdf)。 |
|
构建遵循原始论文 https://arxiv.org/abs/2006.11477 的 wav2vec 2.0 架构所需的组件。 |
高级处理块。 |
|
高级处理块。 |