本研究提出了Prisma,一个开源框架,旨在提高视觉机制可解释性研究的可访问性。该框架提供统一工具包,支持75种以上的视觉变换器和80多个预训练权重,结果显示视觉自编码器的稀疏性模式显著低于语言自编码器。
本文介绍了多种基于视觉机制的目标检测算法,包括 SaccadeNet、SaccadeCam 和 CaTDet。SaccadeNet 结合卷积神经网络实现高效检测,CaTDet 利用时间相关性加速检测速度,MimicDet 通过模仿特征提高准确性。这些方法在多个数据集上表现出色,推动了目标检测技术的发展。
完成下面两步后,将自动完成登录并继续当前操作。