本文介绍了一种名为双重语义关系注意力网络(DSRAN)的新型图注意力方法,旨在提高图像文本匹配的准确性。该方法通过不同层次的语义关系学习,在MS-COCO和Flickr30K数据集上取得了显著效果提升,并提出了图像场景的文本表示、对比学习框架及负样本挖掘技术,验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。