引入噪声稳健性到预训练自动语音识别

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种用于自动语音识别的后处理模型,使用基于Transformer的编码器-解码器架构将ASR模型输出转化为语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并指出需要广泛的数据增强和预训练权重的初始化来实现良好的性能。该方法在LibriSpeech基准测试中,在词错误率上表现优异,尤其是在更嘈杂的评估数据集上。该模型还通过6-gram语言模型重新评分超过了基础模型,并接近于使用Transformer-XL神经语言模型重新评分的性能。

🎯

关键要点

  • 介绍了一种用于自动语音识别的后处理模型。

  • 模型使用基于Transformer的编码器-解码器架构,将ASR模型输出转化为语法和语义正确的文本。

  • 探讨了不同的规范化和优化策略。

  • 强调需要广泛的数据增强和预训练权重的初始化以实现良好的性能。

  • 在LibriSpeech基准测试中,模型在词错误率上表现优异,尤其是在嘈杂的评估数据集上。

  • 模型通过6-gram语言模型重新评分超过了基础模型,接近于使用Transformer-XL神经语言模型的性能。

➡️

继续阅读