小红花·文摘

本文介绍了一种名为双重语义关系注意力网络（DSRAN）的新型图注意力方法，旨在提高图像文本匹配的准确性。该方法通过不同层次的语义关系学习，在MS-COCO和Flickr30K数据集上取得了显著效果提升，并提出了图像场景的文本表示、对比学习框架及负样本挖掘技术，验证了其有效性。