基于令牌加权的 RNN-T 模型用于学习有缺陷的数据

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

本文介绍了一种通过未标记语音数据对递归神经网络转录器进行无监督微调的新方法,显著提升了自动语音识别系统的性能。同时,研究探讨了训练注意力机制模型、半监督学习和文本表示框架等方法,均有效提高了识别准确率。

🎯

关键要点

  • 提出了一种利用未标记语音数据对递归神经网络转录器进行无监督微调的方法,显著提升了自动语音识别系统的性能。
  • 引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响,实验在多个数据集上进行。
  • 研究了训练注意力机制的序列到序列模型,直接最小化单词错误率,实验证明效果优于基于模型的采样方法。
  • 提出了一种基于上下文偏差和似然比的方法,改善自然语言下的自动语音识别效果,识别正确率提高了10%。
  • 通过伪标签技术的半监督学习,提出了“替代伪标签”的新框架,以应对噪声伪标签问题。
  • 提出了一种新的文本表示和训练框架,显著提高了端到端自动语音识别模型的准确性。
  • 提出了一种基于损失函数和词错误率的奖励函数的增强学习方法,自我关键序列训练 (SCST),取得了显著的词错误率改进。

延伸问答

如何利用未标记语音数据提升自动语音识别系统的性能?

通过对递归神经网络转录器进行无监督微调,结合多重假设 RNN-T 损失,可以显著提升系统性能。

什么是“替代伪标签”框架,它解决了什么问题?

“替代伪标签”框架通过伪标签技术的半监督学习,旨在应对噪声伪标签带来的问题。

训练注意力机制的序列到序列模型有什么优势?

该模型通过直接最小化单词错误率,效果优于基于模型的采样方法,性能提高了8.2%。

如何改善自然语言下的自动语音识别效果?

通过基于上下文偏差和似然比的方法,可以提高识别正确率约10%。

自我关键序列训练 (SCST) 方法的主要贡献是什么?

SCST 方法通过基于损失函数和词错误率的奖励函数,显著改善了自动语音识别中的词错误率。

新提出的文本表示和训练框架有什么效果?

该框架显著提高了端到端自动语音识别模型的准确性,并适用于不同的数据集。

➡️

继续阅读