CR-CTC:用于改进语音识别的一致性正则化CTC
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对连接主义时间分类(CTC)在语音识别中的性能不足问题,提出了一种一致性正则化CTC(CR-CTC)方法。该方法通过对不同增强视图下的输入语音梅尔频谱图生成的两个CTC分布施加一致性约束,从而在自蒸馏和上下文表示学习方面取得了显著效果,实验结果表明CR-CTC的性能在多个数据集上与传统方法相当,甚至有所提升。
本文介绍了一种改进CTC模型的方法,通过利用标签先验知识减少路径中的空白对齐得分,从而提升训练效果。在Buckeye和TIMIT数据集上,该方法的音素和词边界错误率降低了12-40%。与MFA相比,Buckeye表现相似,TIMIT稍逊,但训练流程更简单高效。相关训练步骤和预训练模型已在TorchAudio发布。