通过分析视频帧之间的上下文跨模态关系,提出了融合了空时双向音频-视觉注意力模块的模型,实现了音频-视觉关联的像素级理解。实验结果表明该模型在音频-视觉分割任务中优于其他方法,尤其在多源数据集上获得了8.3%的平均交并比增益。
完成下面两步后,将自动完成登录并继续当前操作。