该文章介绍了一种基于迭代扫描的指代表达理解模型ScanFormer,通过图像金字塔逐层扫描图像,过滤无关区域,实现任务相关区域的关注。实验结果显示,该模型在多个数据集上取得了接近最先进的性能,并具有实时推理速度。文章还对模型的patch选择和定位精度进行了统计和可视化分析。
完成下面两步后,将自动完成登录并继续当前操作。