该研究提出了一种新的视觉文本关联方法,利用视觉和文本注意力以及交叉模态最难和半硬负对挖掘。在实验中,该方法在CUHK-PEDES数据集上取得了55.32%的top1得分,成为了最先进的方法。同时,在COCO字幕数据集上验证了半硬匹配挖掘方法的有效性和互补性。
完成下面两步后,将自动完成登录并继续当前操作。