小红花·文摘

该研究聚焦于音频-视觉问答（AVQA）任务，构建了MUSIC-AVQA v2.0数据集，并提出了新的基线模型，准确性超越现有标准。研究表明，通过多模态知识和时空推理，该方法在问题回答性能上具有显著优势。