本文介绍了一种新的端到端模型SSG,用于图像中定位所指物体。该模型通过多模态交互和引导注意机制提升性能,实验结果显示其在多个数据集上表现优异,能够快速准确地完成物体定位。
完成下面两步后,将自动完成登录并继续当前操作。