机器之心 ·

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

💡 原文中文，约7300字，阅读约需18分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇内容。新一代Kaldi团队提出CR-CTC算法，提升语音识别性能，并在多个数据集上取得新SOTA结果。该方法通过一致性正则化优化CTC模型，增强模型的泛化能力。

🎯

🔎

CR-CTC算法通过一致性正则化优化CTC模型，显著提升了语音识别的性能。这种方法不仅提高了模型的泛化能力，还使得纯CTC模型的表现接近更复杂的Transducer和CTC/AED模型，展示了CTC在语音识别领域的潜力。

CR-CTC方法中使用了SpecAugment技术，通过生成不同的增强视图来提高模型的多样性。这种数据增强策略有效地提升了模型对输入数据的适应性，增强了模型的学习能力，值得在其他语音识别任务中借鉴。

CR-CTC在多个数据集上取得了新的SOTA结果，尤其是在LibriSpeech数据集上，其性能与CTC/AED和Transducer相当。这表明，CR-CTC不仅在理论上具有创新性，在实际应用中也能与当前最先进的模型竞争，具有广泛的应用前景。

❓

CR-CTC算法通过一致性正则化优化CTC模型，显著提升语音识别性能，并在多个数据集上取得新的SOTA结果。

CR-CTC在LibriSpeech、Aishell-1和GigaSpeech等数据集上表现优异，性能超越标准CTC，与CTC/AED和Transducer模型相当。

CR-CTC通过一致性正则化、自蒸馏和掩蔽预测等机制，增强模型的泛化能力，减少过拟合现象。

CR-CTC显著超越传统CTC模型的性能，且在不依赖外部训练数据和语言模型的情况下，表现出色。

CR-CTC使用了SpecAugment技术，包括时间扭曲、频率掩蔽和时间掩蔽，生成不同的增强视图以提高模型多样性。

消融实验验证了CR-CTC在self-distillation、masked prediction和peak suppression等不同解释角度的有效性。

🏷️