ScanFormer:逐层抵达目标,基于特征金字塔的指代表达理解框架 | CVPR'24 - 晓飞的算法工程笔记
原文中文,约7300字,阅读约需18分钟。发表于: 。指代表达理解(REC)旨在在图像中定位由自由形式自然语言描述指定的目标对象。尽管最先进的方法取得了令人印象深刻的性能,但它们对图像进行了密集感知,包含与语言查询无关的多余视觉区域,导致额外的计算开销。这启发论文探讨一个问题:能否消除与语言无关的多余视觉区域,以提高模型的效率?现有的相关方法主要侧重于
该论文提出了一种名为ScanFormer的迭代感知框架,用于指代表达理解。该框架通过逐层利用图像尺度金字塔,从上到下提取与语言相关的视觉图像块,并通过设计的信息预测方法丢弃不相关的图像块。论文还提出了一个用于加速推断的被丢弃图像块的选择策略。实验证明了该框架在准确性和效率之间取得了平衡。