该论文提出了一种名为ScanFormer的迭代感知框架,用于指代表达理解。该框架通过逐层利用图像尺度金字塔,从上到下提取与语言相关的视觉图像块,并通过设计的信息预测方法丢弃不相关的图像块。论文还提出了一个用于加速推断的被丢弃图像块的选择策略。实验证明了该框架在准确性和效率之间取得了平衡。
该文章介绍了一种基于迭代扫描的指代表达理解模型ScanFormer,通过图像金字塔逐层扫描图像,过滤无关区域,实现任务相关区域的关注。实验结果显示,该模型在多个数据集上取得了接近最先进的性能,并具有实时推理速度。文章还对模型的patch选择和定位精度进行了统计和可视化分析。
本文探讨了自然语言与计算机视觉中的指代表达理解,提出了语言自适应动态子网(LADS)、无提案一阶段模型(PFOS)和实时全局推理网络等新模型,旨在提升推理速度和准确性。同时,研究还涉及3D对象定位方法ScanRefer及其数据集,并强调了Dual Modular Memorization (DMM)方法在连续任务中的性能改进。
完成下面两步后,将自动完成登录并继续当前操作。