研究提出了流式语音识别的“decoder-only”模型,使用适配器和边界令牌来提升模型性能。实验结果表明,该模型在中文语音识别任务中取得了较好的性能。
本文介绍了美团在语音交互场景中的低延迟流式语音识别方案,使用流式语音识别技术,可以实时返回识别结果,提高用户体验和交互效率。文章详细阐述了基于联结时序分类模型(CTC)的流式语音识别系统,以及如何降低出字延迟的尖峰优先正则化方法(PFR)。该方法在ICASSP 2023国际会议上被收录。本文还介绍了其他降低语音识别系统出字延迟的方法,并对实验结果进行了分析。该方法简单有效,具有一定的扩展空间。
完成下面两步后,将自动完成登录并继续当前操作。