美团技术团队 ·

低延迟流式语音识别技术在人机语音交互场景中的实践

💡 原文中文，约6500字，阅读约需16分钟。

📝

内容提要

本文介绍了美团在语音交互场景中的低延迟流式语音识别方案，使用流式语音识别技术，可以实时返回识别结果，提高用户体验和交互效率。文章详细阐述了基于联结时序分类模型（CTC）的流式语音识别系统，以及如何降低出字延迟的尖峰优先正则化方法（PFR）。该方法在ICASSP 2023国际会议上被收录。本文还介绍了其他降低语音识别系统出字延迟的方法，并对实验结果进行了分析。该方法简单有效，具有一定的扩展空间。

🎯

关键要点

美团在语音交互场景中采用低延迟流式语音识别方案，提高用户体验和交互效率。
流式语音识别技术可以实时返回识别结果，避免用户等待。
文章介绍了基于联结时序分类模型（CTC）的流式语音识别系统。
提出了尖峰优先正则化方法（PFR）以降低出字延迟，该方法在ICASSP 2023会议上被收录。
低延迟的流式语音识别系统能够提升用户满意度，减少误解和冲突。
CTC模型结构优雅，广泛应用于语音识别、语音翻译和光学字符识别等领域。
出字延迟是用户发音结束到系统识别出文字之间的时间差，越低越好。
PFR方法通过知识蒸馏使得CTC模型输出的概率分布整体左移，从而降低出字延迟。
实验结果表明，PFR方法有效降低了流式和非流式模型的延迟指标。
评价指标包括字错误率（CER）、平均尖峰延迟（APL）和PR50/PR90。
本文的方法简单有效，不依赖强制对齐标注信息，具有扩展空间。

🏷️

低延迟流式语音识别技术在人机语音交互场景中的实践

内容提要

关键要点

标签

继续阅读