小红花·文摘

本文介绍了一种新的端到端模型SSG，用于图像中定位所指物体。该模型通过多模态交互和引导注意机制提升性能，实验结果显示其在多个数据集上表现优异，能够快速准确地完成物体定位。