小红花·文摘

本文研究了音视频问答（AVQA）任务，提出了目标感知联合时空基础网络和渐进式时空感知网络等新方法，利用多模态特征和知识蒸馏提升问答性能。实验结果显示，这些方法在MUSIC-AVQA数据集上表现优越，推动了AVQA领域的发展。