小红花·文摘

本文综述了音视频学习的最新进展，探讨了音视频分离、对应学习、生成和表示学习等领域，提出了音频视觉融合模型和联合注意力机制等多种方法，展示了在音视频事件定位和分类任务中的优越性能。同时，强调了改进模型泛化能力的必要性，并发布了AV-SUPERB基准以促进相关研究。