小红花·文摘

通过分析视频帧之间的上下文跨模态关系，提出了融合了空时双向音频-视觉注意力模块的模型，实现了音频-视觉关联的像素级理解。实验结果表明该模型在音频-视觉分割任务中优于其他方法，尤其在多源数据集上获得了8.3%的平均交并比增益。