探索基于SSL的离散语音特征在Zipformer上下文ASR中的应用
发表于: 。本研究解决了自监督学习(SSL)离散语音特征在Zipformer模型中的应用不足的问题。通过将提取的离散语音特征作为额外的跨发声音频上下文特征,展示了其在建模上下文中的有效性。研究表明,使用离散特征的系统在字错误率上显著优于仅使用发声内部上下文的基线,展示了降低字错误率的潜力。
本研究解决了自监督学习(SSL)离散语音特征在Zipformer模型中的应用不足的问题。通过将提取的离散语音特征作为额外的跨发声音频上下文特征,展示了其在建模上下文中的有效性。研究表明,使用离散特征的系统在字错误率上显著优于仅使用发声内部上下文的基线,展示了降低字错误率的潜力。