MISP 2025挑战聚焦于复杂声学条件下的会议转录,提出音视频说话者分离与识别任务。参与者通过结合音频和视频模态,显著提升了系统准确率,展示了多模态信息在语音处理中的潜力。
本文综述了音视频学习的四个子领域:音视频分离、对应学习、生成和表示学习,探讨了先进方法、面临的挑战及相关数据集。研究提出了新框架和方法,如AudioScope和AV-CIL,显著提升了音视频分离和学习效果。
本文综述了音视频学习的最新进展,探讨了音视频分离、对应学习、生成和表示学习等领域,提出了音频视觉融合模型和联合注意力机制等多种方法,展示了在音视频事件定位和分类任务中的优越性能。同时,强调了改进模型泛化能力的必要性,并发布了AV-SUPERB基准以促进相关研究。
完成下面两步后,将自动完成登录并继续当前操作。