小红花·文摘

本文研究音视频问答（AVQA）任务，提出了MUSIC-AVQA数据集及多种新方法，如渐进式时空感知网络和上下文多模态对齐网络，显著提升了问答性能。同时，研究探讨了多语言环境下的AVQA，提出新的数据集和框架，以提高鲁棒性和准确性。