通过非对称负对比和反向注意力实现鲁棒表征学习
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了一种基于U-Net的注意力模型,用于增强深度神经网络语音识别系统中的对抗性信号,并通过可解释的语音识别度量评估模型性能。实验结果表明,该模型可以提高语音质量感知评估、语音传输指数和短期客观清晰度等指标,并可以增强DNN基于ASR模型的鲁棒性和泛化能力,从而确保弹性ASR系统的安全性。
🎯
关键要点
-
提出了一种基于 U-Net 的注意力模型 U-Net$_{At}$,用于增强 DNN 语音识别系统中的对抗性信号。
-
通过可解释的语音识别度量评估模型性能。
-
实验结果显示,U-Net$_{At}$ 可显著提高语音质量感知评估(PESQ)、语音传输指数(STI)和短期客观清晰度(STOI)。
-
在对抗性语音示例的语音增强任务中,PESQ 从 1.13 提高到 2.78,STI 从 0.65 提高到 0.75,STOI 从 0.83 提高到 0.96。
-
注意力网络学习的时间特征能够提高 DNN 基于 ASR 模型的鲁棒性。
-
应用带有加性对抗性数据增强的对抗性训练可以增强 DNN 基于 ASR 模型的泛化能力。
-
在基于梯度的扰动下,单词错误率(WERs)减少了 2.22%;在经过进化优化的扰动下,减少了 2.03%。
-
增强模型与对抗性训练可以进一步确保弹性 ASR 系统的安全性。
➡️