引入噪声稳健性到预训练自动语音识别
原文中文,约400字,阅读约需1分钟。发表于: 。提出了一种新的方法,即 Cleancoder 预处理架构,从 Conformer ASR 模型中提取隐藏激活,并将其馈送给解码器来预测去噪谱图。通过在嘈杂的输入中重建去噪谱图,我们证明 Cleancoder 可以滤除语音中的噪声,从而改善了下游模型在嘈杂环境中的总词错误率(WER)。
本文介绍了一种用于自动语音识别的后处理模型,使用基于Transformer的编码器-解码器架构将ASR模型输出转化为语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并指出需要广泛的数据增强和预训练权重的初始化来实现良好的性能。该方法在LibriSpeech基准测试中,在词错误率上表现优异,尤其是在更嘈杂的评估数据集上。该模型还通过6-gram语言模型重新评分超过了基础模型,并接近于使用Transformer-XL神经语言模型重新评分的性能。