该研究提出了一种简单易解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示。该模型使用图卷积网络进行关联和推理,并使用门和记忆机制进行全局语义推理。实验证明该方法在MS-COCO和Flickr30K数据集上取得了相对于最佳方法分别为6.8%和4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K数据集上分别提高了12.6%和5.8%的图像检索和字幕检索。
完成下面两步后,将自动完成登录并继续当前操作。