本文介绍了一种基于声学特征的口吃检测模型StutterNet,采用深度学习技术,平均漏诊率为10.03%。研究还探讨了结合音频和视频数据的多模态故障检测方法,显著提高了检测性能。通过多任务学习和注意力机制,提出了改进的口吃检测系统,展示了其在多语言和跨语料库环境中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。