小红花·文摘

本文介绍了一种基于声学特征的口吃检测模型StutterNet，采用深度学习技术，平均漏诊率为10.03%。研究还探讨了结合音频和视频数据的多模态故障检测方法，显著提高了检测性能。通过多任务学习和注意力机制，提出了改进的口吃检测系统，展示了其在多语言和跨语料库环境中的有效性。