该研究聚焦于音频-视觉问答(AVQA)任务,构建了MUSIC-AVQA v2.0数据集,并提出了新的基线模型,准确性超越现有标准。研究表明,通过多模态知识和时空推理,该方法在问题回答性能上具有显著优势。
完成下面两步后,将自动完成登录并继续当前操作。