基于类熵测量的连接主义音素识别中的分段边界检测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了通过对齐熵监督神经语音识别模型的方法,以提高模型的准确性和延迟。实验证明,对齐蒸馏可以改善师生蒸馏模型在流媒体场景下的性能。

🎯

关键要点

  • 在流媒体环境中,语音识别模型需要在完整音频流可用之前将语音的子序列映射为文本。
  • 训练过程中很少有语音和文本之间的对齐信息可用,模型需要以完全自我监督的方式进行学习。
  • 本文通过熵半环重新考虑了神经语音识别模型。
  • 展示了如何通过对齐熵来通过正则化或蒸馏来监督模型。
  • 实验证明,对齐蒸馏可以提高师生蒸馏模型的准确性和延迟。
  • 在流媒体场景下,Librispeech 数据集上的性能达到了最新水平。
➡️

继续阅读