BriefGPT - AI 论文速递 ·

MMSD-Net：面向多模态口吃检测

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了一种基于声学特征的口吃检测模型StutterNet，采用深度学习技术，平均漏诊率为10.03%。研究还探讨了结合音频和视频数据的多模态故障检测方法，显著提高了检测性能。通过多任务学习和注意力机制，提出了改进的口吃检测系统，展示了其在多语言和跨语料库环境中的有效性。

🎯

❓

StutterNet模型基于声学特征，采用深度残差网络和双向长短时记忆层，平均漏诊率为10.03%。

多模态故障检测方法结合音频和视频数据，显著提高了检测性能，平均绝对改进率为10%。

StutterNet在包含100多个说话者的UCLASS口吃数据集上进行验证。

研究通过多任务学习和注意力机制，提出了改进的口吃检测系统，适用于多语言和跨语料库环境。

该研究的平均漏诊率为10.03%，比现有技术先进了近27%。

即使在一半的样本中视频模态丢失，该方法仍然有7%的改进。

🏷️