本研究提出了一种利用音频和视频数据进行故障检测的多模态方法,通过融合技术和模态不可知编码器,实现了时态和语义上下文的学习。实验结果表明,该方法在故障检测任务中优于仅使用音频的方法。
本文介绍了一种利用音频和视频数据进行故障检测的多模态方法。研究者提出了一种新的融合技术,并设计了适应视频模态丢失的场景。实验结果显示,该方法在故障检测任务中优于仅使用音频的方法,即使视频模态丢失一半,仍有7%的改进。
完成下面两步后,将自动完成登录并继续当前操作。