ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

💡 原文中文,约7300字,阅读约需18分钟。
📝

内容提要

AIxiv专栏促进学术交流,报道超过2000篇内容。新一代Kaldi团队提出CR-CTC算法,提升语音识别性能,并在多个数据集上取得新SOTA结果。该方法通过一致性正则化优化CTC模型,增强模型的泛化能力。

🎯

关键要点

  • AIxiv专栏促进学术交流,报道超过2000篇内容。
  • 新一代Kaldi团队提出CR-CTC算法,提升语音识别性能。
  • CR-CTC在多个数据集上取得新SOTA结果,不依赖外部训练数据和外部语言模型。
  • CR-CTC通过一致性正则化优化CTC模型,增强模型的泛化能力。
  • CR-CTC方法简单,通过共享参数的encoder模型计算CTC概率分布。
  • 使用SpecAugment技术生成不同的增强视图,提高模型的多样性和泛化能力。
  • CR-CTC的自蒸馏、掩蔽预测和峰值抑制机制增强模型性能。
  • 与SOTA模型比较,CR-CTC显著超越标准CTC,性能与CTC/AED和Transducer相当。
  • 消融实验验证了CR-CTC的不同解释角度的有效性。
  • CR-CTC在Conformer模型上同样显著提升CTC性能。
➡️

继续阅读