ResVG:增强多实例视觉定位中的关系和语义理解

本研究针对现有方法在多实例干扰下准确定位目标物体的挑战,提出了一种新的关系和语义敏感视觉定位模型(ResVG)。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法,显著提高了对物体语义与空间关系的理解,从而在视觉定位任务中取得了更好的性能表现。

本研究提出了一种新的上下文感知弱监督学习方法,通过深度网络结合物体细化和实体关系建模,提高物体表述和匹配准确性。实验结果显示,该方法在Flickr30K和ReferItGame数据集上具有更好的算法性能。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文