小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了一种创新的自监督学习方法，通过局部遮罩图像建模和渐进层冻结相结合，提高了Vision Transformers（ViTs）中初始层训练的效率和速度。该方法采用了多尺度重构过程，实现了高效学习和跨尺度的语义理解。实验结果表明，该方法在准确性最小影响的情况下，大幅减少了训练时间。该方法在计算资源和时间至关重要的场景中具有潜力，标志着计算机视觉领域自监督学习的进步。

HySparK：大规模医学图像的混合稀疏掩蔽预训练

BriefGPT - AI 论文速递 ·

本研究成功地将预先训练的Vision Transformers（ViT）应用于目视检测，并证明了与CNN的互补性。预先训练模型的一小部分在资源有限的环境中也能达到良好准确性。通过添加传统手工制作的特征，算法效率进一步提高。

基于预训练 CNN 和 ViT 特征的结合：另一个令人惊叹的识别基准线

BriefGPT - AI 论文速递 ·

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，解决了由结构化注意力模式引起的语义信息丧失问题。该方法可以在保证准确率的情况下显著减少计算量，达到更优的精度-计算复杂度平衡点。结合 Token 稀疏机制，该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Fibottention: 多头多视线接纳的初级视觉表征学习

BriefGPT - AI 论文速递 ·

本文提出了一种基于学习的、实例相关的注意力机制来加速Vision Transformers网络，通过限制自注意力操作在空间上邻近的一组Token上，并评估Token之间的连接得分来解决语义信息丧失问题。该方法可以显著减少计算量，降低Vision Transformers网络的FLOPs超过60%。

视觉 Transformer 中的区域与稀疏注意力融合

BriefGPT - AI 论文速递 ·

本文提出了一种基于学习的、实例相关的注意力机制来加速Vision Transformers网络，通过限制自注意力操作在空间上邻近的一组Token上，并评估Token之间的连接得分来解决语义信息丧失问题。该方法可以显著减少计算量，降低Vision Transformers网络的FLOPs超过60%。

ToSA：用于高效视觉 Transformer 的令牌选择性注意力

BriefGPT - AI 论文速递 ·

研究人员提出了一种名为“随机共振变压器”（SRT）的零样本方法，通过子标记空间平移扰动输入图像，改善了Vision Transformers（ViTs）中的量化伪像问题。SRT可以有效地超分辨率预训练ViTs的特征，捕捉到更多的局部细粒度结构，并在多个任务上展现改进效果，无需微调。

使用二进制球面量化对图像和视频进行令牌化

BriefGPT - AI 论文速递 ·

本文综合调查了Vision Transformers（ViTs）的模型量化和硬件加速方面，探讨了ViTs的架构特性、运行时特性、模型量化原则，以及最新的量化技术。同时，还探索了量化ViTs的硬件加速，并强调了硬件友好算法设计的重要性。讨论了未来的挑战和研究方向。

视觉 Transformer 模型量化和硬件加速：综述

BriefGPT - AI 论文速递 ·

该研究使用Vision Transformers将6D姿态估计问题转化为回归任务，并引入了一种简单的方法来确定姿态的置信度。该方法在Linemod-Occlusion和YCB-V数据集上表现优于当前最先进方法，提高了模型的可解释性和推理性能的可靠性。

SDPose：基于循环引导自蒸馏的分词姿态估计

BriefGPT - AI 论文速递 ·

本文介绍了SegVit模型，使用Vision Transformers进行语义分割，包括Attention-to-Mask（ATM）模块和基于查询的下采样（QD）和上采样（QU）技术。实验证明，使用ATM模块的SegVit模型在ADE20K数据集上优于常规ViT骨干网络的SegVit模型，并在COCO-Stuff-10K和PASCAL-Context数据集上达到了新的最佳性能。

ConSept：基于适配器的视觉 Transformer 的持续语义分割

BriefGPT - AI 论文速递 ·

本文介绍了ViT-ReciproCAM，一种用于解决Vision Transformers在图像分类和目标检测中预测错误挑战的梯度无关的视觉解释方法。该方法通过生成局部化的显著性地图来优化ADCC指标，有效地理解和调试ViT模型。

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

BriefGPT - AI 论文速递 ·

本文介绍了一种创新的自监督学习方法，通过局部遮罩图像建模和渐进层冻结相结合，提高了Vision Transformers（ViTs）中初始层训练的效率和速度。该方法采用了多尺度重构过程，实现了高效学习和跨尺度的语义理解。实验结果表明，该方法在准确性最小影响的情况下，大幅减少了训练时间。该方法在计算资源和时间至关重要的场景中具有潜力，标志着计算机视觉领域自监督学习的进步。

SmartFRZ：一种利用基于注意力的层冻结的高效训练框架

BriefGPT - AI 论文速递 ·

IdleViT是一种改善Vision Transformers计算复杂度的方法，通过动态删除图像令牌并保持其余令牌空闲。实验证明，IdleViT可以降低预训练ViTs的复杂性，并在微调后的ImageNet上准确率下降不超过0.2％。同时，在保留比例为0.5时，IdleViT在DeiT-S上的准确率更高，推理速度更快。

高效的视觉 Transformer 的令牌传播控制器

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Vision Transformers构建的简单通用的U-ViT架构，实现了无条件和类条件图像生成以及文本到图像生成任务的优化。研究结果表明，长跳过连接对于基于扩散的图像建模至关重要，而CNN-based U-Net中的下采样和上采样算子并非总是必要的。

DiffiT：用于图像生成的扩散视觉 Transformer

BriefGPT - AI 论文速递 ·

研究将6D姿态估计问题转化为回归任务，利用Vision Transformers进行探索，并引入了确定姿态置信度的简单方法。方法PViT-6D在Linemod-Occlusion和YCB-V数据集上表现优于最先进方法，提高了可解释性和推理性能的可靠性。

PViT-6D：使用置信水平预测和姿态令牌超频视觉变换器的 6D 位姿估计

BriefGPT - AI 论文速递 ·

IdleViT是一种改善Vision Transformers计算复杂度问题的方法，通过动态删除图像令牌并保持其余令牌空闲。实验证明，IdleViT可以降低预训练ViTs的复杂性，准确率下降不超过0.2％。在保留比例为0.5时，IdleViT在DeiT-S上具有更高的准确率和更快的推理速度。

用于视觉 Transformer 的高效顺序推理的令牌回收

BriefGPT - AI 论文速递 ·

研究发现Vision Transformers（ViTs）中存在量化伪像，提出了一种零样本方法SRT来改善预训练ViTs处理空间量化的方式。SRT可以有效地超分辨率预训练ViTs的特征，捕捉到更多的局部细粒度结构。在不同任务中，SRT都能提高模型性能。此外，SRT还适用于非密集预测任务，产生了一致的改进效果。

Spectro-ViT：使用频谱图的 GABA 编辑 MRS 重建的视觉 Transformer 模型

BriefGPT - AI 论文速递 ·

本文提出了一种使用Vision Transformers（ViTs）在patch级别比较两个图像的方法，经过对CASIA Webface数据集上的2M对图像进行训练，该方法在大样本外分布数据上的准确度相当于DeepFace-EMD，但推理速度是DeepFace-EMD的两倍以上。此外，该模型在可视化交叉注意力方面显示出有希望的解释性。

基于 Vision Transformers 的快速且可解释的非分布数据人脸识别

BriefGPT - AI 论文速递 ·

本文介绍了一种名为Vision Transformers (ViTs)的模型，使用自我监督学习(SSAT)作为辅助任务与主任务同时进行联合优化，以在有限的数据量下取得更好的性能表现。实验证明了SSAT的显著性提升并减少了碳足迹，同时在视频领域的Deepfake检测上也验证了其普遍适用性。

有限数据，无限潜力：ViT 与遮蔽自编码器增强的研究

BriefGPT - AI 论文速递 ·

该文介绍了一种使用预训练的Vision Transformers（ViT）提取视觉描述符的方法，用于零样本新目标6D姿态估计。该方法在多个数据集上进行了实验，结果表现卓越，无需进行特定任务的微调。与其他方法相比，该方法在三个数据集上都有显著提升。

MFOS: 无模型且一次性物体姿态估计

BriefGPT - AI 论文速递 ·

该研究提出了一种基于Vision Transformers构建的U-ViT架构，采用标记方法对所有输入进行处理，并在浅层和深层之间采用长跳过连接，实现无条件和类条件图像生成，以及文本到图像生成任务的优化。长跳过连接对于基于扩散的图像建模至关重要，而CNN-based U-Net中的下采样和上采样算子并非总是必要的。

Diffusion U-Net 中的免费午餐

BriefGPT - AI 论文速递 ·