浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

该文章介绍了一种基于迭代扫描的指代表达理解模型ScanFormer,通过图像金字塔逐层扫描图像,过滤无关区域,实现任务相关区域的关注。实验结果显示,该模型在多个数据集上取得了接近最先进的性能,并具有实时推理速度。文章还对模型的patch选择和定位精度进行了统计和可视化分析。

🎯

关键要点

  • 文章介绍了一种基于迭代扫描的指代表达理解模型ScanFormer。
  • ScanFormer通过图像金字塔逐层扫描图像,过滤无关区域,实现任务相关区域的关注。
  • 该模型在多个数据集上取得了接近最先进的性能,并具有实时推理速度。
  • 模型的patch选择和定位精度进行了统计和可视化分析。
  • 指代表达理解(REC)模型由视觉编码器、文本编码器和跨模态交互组成。
  • 目前的研究主要集中在跨模态交互模块,缺乏对视觉编码器的探索。
  • ScanFormer采用coarse-to-fine的迭代感知框架,逐层过滤无关区域以降低计算浪费。
  • 模型结构简化为统一文本和视觉模态的ViLT模型,分为Encoder1和Encoder2。
  • 动态patch选择通过前一尺度生成的选择因子来决定,优化了计算效率。
  • 实验结果显示,ScanFormer在多个数据集上性能优越,推理速度实时。
  • 模型定位精度随着尺度的增加而提升,提出了早退机制的初步尝试。
  • 可视化结果显示,模型对背景区域关注粗尺度信息,对前景区域关注细粒度细节。
➡️

继续阅读