本文综述了音视频学习的最新进展,探讨了音视频分离、对应学习、生成和表示学习等领域,提出了音频视觉融合模型和联合注意力机制等多种方法,展示了在音视频事件定位和分类任务中的优越性能。同时,强调了改进模型泛化能力的必要性,并发布了AV-SUPERB基准以促进相关研究。
完成下面两步后,将自动完成登录并继续当前操作。