机器之心 ·

浙大李玺团队：指代表达理解新方法，ScanFormer粗到细迭代消除视觉冗余

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

该文章介绍了一种基于迭代扫描的指代表达理解模型ScanFormer，通过图像金字塔逐层扫描图像，过滤无关区域，实现任务相关区域的关注。实验结果显示，该模型在多个数据集上取得了接近最先进的性能，并具有实时推理速度。文章还对模型的patch选择和定位精度进行了统计和可视化分析。

🎯

关键要点

文章介绍了一种基于迭代扫描的指代表达理解模型ScanFormer。
ScanFormer通过图像金字塔逐层扫描图像，过滤无关区域，实现任务相关区域的关注。
该模型在多个数据集上取得了接近最先进的性能，并具有实时推理速度。
模型的patch选择和定位精度进行了统计和可视化分析。
指代表达理解（REC）模型由视觉编码器、文本编码器和跨模态交互组成。
目前的研究主要集中在跨模态交互模块，缺乏对视觉编码器的探索。
ScanFormer采用coarse-to-fine的迭代感知框架，逐层过滤无关区域以降低计算浪费。
模型结构简化为统一文本和视觉模态的ViLT模型，分为Encoder1和Encoder2。
动态patch选择通过前一尺度生成的选择因子来决定，优化了计算效率。
实验结果显示，ScanFormer在多个数据集上性能优越，推理速度实时。
模型定位精度随着尺度的增加而提升，提出了早退机制的初步尝试。
可视化结果显示，模型对背景区域关注粗尺度信息，对前景区域关注细粒度细节。

❓

延伸问答

ScanFormer模型的主要创新点是什么？

ScanFormer模型采用了coarse-to-fine的迭代感知框架，通过图像金字塔逐层扫描，过滤无关区域，从而降低计算浪费并关注任务相关区域。

ScanFormer在性能上与其他模型相比如何？

ScanFormer在RefCOCO、RefCOCO+、RefCOCOg和ReferItGame等多个数据集上取得了接近最先进的性能，并且具有实时推理速度。

ScanFormer是如何处理图像中的冗余信息的？

ScanFormer通过图像金字塔的方式，首先在粗尺度图像中识别背景区域，然后逐步引入细粒度前景区域，从而有效过滤冗余信息。

ScanFormer的动态patch选择是如何实现的？

动态patch选择通过前一尺度生成的选择因子来决定，优化了计算效率，使得未被选择的patch可以被替换为常量token，从而简化计算。

ScanFormer模型的定位精度如何随尺度变化？

随着尺度的增加，ScanFormer的定位精度逐步提升，细粒度特征的引入使得位置预测更加准确。

ScanFormer在实验中有哪些可视化结果？

实验中可视化结果显示，模型对背景区域关注粗尺度信息，对前景区域则关注细粒度细节，随着尺度的增加，定位精度逐步提高。

🏷️

继续阅读

编码不再是瓶颈：在Spotify扩展开发者体验至团队和代理
Spotify通过内部开发平台和最佳工程实践，加速了AI工具的应用，99%以上的工程师每周使用AI编码工具，显著提升了生产力。引入Honk背景编码代理，自...
NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI
NVIDIA推出新一代物理AI代理技能，支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3，研究人员能够加速数据生成、模拟和政策训练，...
浏览器指纹与反爬虫：TLS JA3、HTTP/2指纹原理及绕过方法
本文讨论了数据抓取中的反爬虫技术，重点介绍了浏览器指纹，包括TLS指纹和HTTP/2指纹。通过分析请求头、TLS握手和HTTP/2设置，服务器能够识别客户...
Free CPU教程丨西湖大学张岳团队开源科研插图神器AutoFigure，可精准理解长篇科学文本
西湖大学的张岳团队推出了智能科研插图生成系统AutoFigure，旨在解决高质量科研插图的生成难题。该系统基于长篇科学文本，确保插图的逻辑结构准确且视觉美...
【译文】运行一个 AI-native 的工程团队
文章讨论了AI驱动的工程组织中编码流程的转变。随着Claude Code的引入，编码、测试和重构的瓶颈转移至验证和代码审查。团队通过及时规划和原型开发，减...
将您的架构待办事项与技术路线图优先级（TRP）对齐
成功的数字化转型需要业务和技术利益相关者在编写代码前达成共识。70%的转型失败源于利益相关者不一致。使用技术路线图优先级（TRP）框架，组织可以快速确定优...