晓飞的算法工程笔记 ·

ScanFormer：逐层抵达目标，基于特征金字塔的指代表达理解框架 | CVPR'24 - 晓飞的算法工程笔记

💡 原文中文，约7300字，阅读约需18分钟。

📝

内容提要

该论文提出了一种名为ScanFormer的迭代感知框架，用于指代表达理解。该框架通过逐层利用图像尺度金字塔，从上到下提取与语言相关的视觉图像块，并通过设计的信息预测方法丢弃不相关的图像块。论文还提出了一个用于加速推断的被丢弃图像块的选择策略。实验证明了该框架在准确性和效率之间取得了平衡。

🎯

❓

ScanFormer是一个迭代感知框架，旨在通过逐层提取与语言相关的视觉图像块来提高指代表达理解的效率。

ScanFormer通过设计的信息预测方法丢弃与语言无关的冗余视觉区域，从而减少计算开销，提高模型效率。

实验表明，ScanFormer在多个数据集上取得了准确性和效率之间的平衡，表现优于最先进的方法。

ScanFormer的框架包括词嵌入、图像块嵌入、位置-尺度嵌入和编码器。

ScanFormer通过常数标记替换机制选择信息图像块，未被选中的标记将被常数标记替换，以加速处理。

ScanFormer的总损失函数结合了边界框损失和稀疏性损失，以优化模型性能。

🏷️