本研究提出了CMAL框架,通过锚点检测和跨模态学习增强视觉与文本的互动。新的自监督任务使CMAL在多个视觉语言任务中表现出色,尤其在SNLI-VE和REC数据集上取得了最佳成绩。
完成下面两步后,将自动完成登录并继续当前操作。