语音预处理
🔗 语音增强
Ravanelli M. |
2021 年 1 月 |
难度:简单 |
时间:20 分钟 |
机器学习中有一句流行的说法是“没有比更多数据更好的数据”。然而,收集新数据可能成本很高,我们必须巧妙地利用现有数据集。一种流行的技术称为语音增强。其思想是人为地损坏原始语音信号,以给网络一种我们在处理新信号的“错觉”。这是一种强大的正则化手段,通常有助于神经网络提高泛化能力,从而在测试数据上取得更好的性能。
🔗 傅里叶变换和频谱图
Ravanelli M. |
2021 年 1 月 |
难度:简单 |
时间:20 分钟 |
在语音和音频处理中,时域信号通常会被转换到另一个域。但是为什么我们需要转换音频信号呢?这是因为在时域查看音频时,信号的一些语音特性/模式(例如音高、共振峰)可能不太明显。通过适当设计的变换,可能更容易从信号本身提取所需信息。
最流行的变换是傅里叶变换,它将时域信号转换为频域中的等效表示。在以下章节中,我们将描述傅里叶变换以及其他相关变换,例如短时傅里叶变换 (STFT) 和频谱图。
🔗 语音特征
Ravanelli M. |
2021 年 1 月 |
难度:简单 |
时间:20 分钟 |
语音是一种非常高维的信号。例如,当采样频率为 16 kHz 时,每秒有 16000 个样本。从机器学习的角度来看,处理如此高维的数据可能是至关重要的。特征提取的目标是找到更紧凑的方式来表示语音。
🔗 环境损坏
Ravanelli M. |
2021 年 2 月 |
难度:中等 |
时间:20 分钟 |
在实际的语音处理应用中,麦克风记录的信号会被噪声和混响破坏。这在远距离说话(远场)场景中尤其有害,例如说话人与参考麦克风距离较远(想想 Google Home、Amazon Echo、Kinect 等流行设备)。
🔗 多麦克风波束成形
Grondin F. & Aris W. |
2021 年 1 月 |
难度:中等 |
时间:20 分钟 |
使用麦克风阵列可以非常方便地提高信号质量(例如减少混响和噪声),然后再执行语音识别任务。麦克风阵列还可以估计声源的到达方向,然后可以将此信息用于“监听”感兴趣的声源方向。
🔗 分析声学特征以检测病理
Plantinga P. |
2024 年 11 月 |
难度:简单 |
时间:20 分钟 |
本笔记本通过使用 4-5 个可解释的特征进行简单的声音分析,以演示传统的病理检测技术。这包括诸如颤抖(jitter)、微扰(shimmer)、谐波性(harmonicity)和声门噪声激发(glottal-to-noise excitation)等特征。