MMSD-Net:面向多模态口吃检测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种利用音频和视频数据进行故障检测的多模态方法,通过融合技术和模态不可知编码器,实现了时态和语义上下文的学习。实验结果表明,该方法在故障检测任务中优于仅使用音频的方法。
🎯
关键要点
- 现有的语音故障检测技术只依赖于声学数据。
- 本研究提出了一种多模态故障检测方法,结合音频和视频数据。
- 策划了一个音频 - 视觉数据集,并提出了新颖的融合技术。
- 使用权值共享的模态不可知编码器来学习时态和语义上下文。
- 设计适应视频模态在推断过程中可能丢失的情况。
- 提供了备选融合策略,当两种模态可用时。
- 在五个故障检测任务中,统一多模态方法明显优于仅音频的方法。
- 视频和音频模态始终可用时,平均绝对改进率为10%。
- 即使在一半的样本中视频模态丢失,仍然有7%的改进。
➡️