小红花·文摘

该论文提出了一种名为ScanFormer的迭代感知框架，用于指代表达理解。该框架通过逐层利用图像尺度金字塔，从上到下提取与语言相关的视觉图像块，并通过设计的信息预测方法丢弃不相关的图像块。论文还提出了一个用于加速推断的被丢弃图像块的选择策略。实验证明了该框架在准确性和效率之间取得了平衡。