低延迟流式语音识别技术在人机语音交互场景中的实践

低延迟流式语音识别技术在人机语音交互场景中的实践

💡 原文中文,约6500字,阅读约需16分钟。
📝

内容提要

本文介绍了美团在语音交互场景中的低延迟流式语音识别方案,使用流式语音识别技术,可以实时返回识别结果,提高用户体验和交互效率。文章详细阐述了基于联结时序分类模型(CTC)的流式语音识别系统,以及如何降低出字延迟的尖峰优先正则化方法(PFR)。该方法在ICASSP 2023国际会议上被收录。本文还介绍了其他降低语音识别系统出字延迟的方法,并对实验结果进行了分析。该方法简单有效,具有一定的扩展空间。

🎯

关键要点

  • 美团在语音交互场景中采用低延迟流式语音识别方案,提高用户体验和交互效率。
  • 流式语音识别技术可以实时返回识别结果,避免用户等待。
  • 文章介绍了基于联结时序分类模型(CTC)的流式语音识别系统。
  • 提出了尖峰优先正则化方法(PFR)以降低出字延迟,该方法在ICASSP 2023会议上被收录。
  • 低延迟的流式语音识别系统能够提升用户满意度,减少误解和冲突。
  • CTC模型结构优雅,广泛应用于语音识别、语音翻译和光学字符识别等领域。
  • 出字延迟是用户发音结束到系统识别出文字之间的时间差,越低越好。
  • PFR方法通过知识蒸馏使得CTC模型输出的概率分布整体左移,从而降低出字延迟。
  • 实验结果表明,PFR方法有效降低了流式和非流式模型的延迟指标。
  • 评价指标包括字错误率(CER)、平均尖峰延迟(APL)和PR50/PR90。
  • 本文的方法简单有效,不依赖强制对齐标注信息,具有扩展空间。
➡️

继续阅读