小红花·文摘

本研究分析了视觉变压器在标签噪声条件下的表现，结果显示大模型在分类准确性和校准效果上优于小模型，为资源受限环境的应用提供了指导。

Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers under Label Noise

BriefGPT - AI 论文速递 ·

本研究提出医学X射线注意(MXA)模块，旨在解决X射线分析中的多条件检测问题。通过将知识蒸馏与视觉变压器结合，模型在CheXpert数据集上的AUC值达到0.85，性能提升233%。

Beyond Traditional Transformers: Medical X-ray Attention (MXA) Block for Improved Multi-label Diagnosis through Knowledge Distillation

BriefGPT - AI 论文速递 ·

从零开始构建视觉变压器

freeCodeCamp.org ·

本研究提出了Prompt-CAM方法，解决了预训练视觉变压器在细粒度分析中无法准确定位相似类别特征的问题。该方法通过学习特定类别的提示，显著提升了特征及其位置的可解释性，展现出优越的解释能力。

Prompt-CAM：一种更简单的可解释变压器用于细粒度分析

BriefGPT - AI 论文速递 ·

本文综述了深度学习中稀疏性技术的研究进展，探讨了通过稀疏化优化神经网络以降低计算复杂度和存储需求。介绍了多种稀疏化方法及其在视觉变压器中的应用，强调了稀疏性对模型性能和计算效率的影响。

超越2:4：在GPU上高效变换器推理的V:N:M稀疏性探索

BriefGPT - AI 论文速递 ·

本文提出了一种优化视觉变压器（ViT）模型的压缩框架，显著降低了训练成本和计算复杂度。通过稠密特征提取和局部-全局令牌合并等方法，提高了推理吞吐量并缩短了训练时间。同时，介绍了硬件高效的标记修剪框架和令牌传播控制器等改进技术，进一步提升了模型的准确性和效率。

通过令牌扩展的 Transformer 通用高效训练

BriefGPT - AI 论文速递 ·

Sora的文章讨论了使用DiT模型和令牌编码进行令人印象深刻的视频生成。文章探讨了在DiT神经网络结构中结合视觉变压器和扩散模型。Sora在视频生成方面的进步对3D生成、自动驾驶和机器人技术有着重要影响。未来的挑战是解决错误积累问题，同时保持视频质量和一致性。

近期，大型语言模型（LLMs）与计算机视觉（CV）的交叉领域成为人工智能（AI）领域重要的研究领域。该综述论文探讨了变压器及其后继者在转换器和大型语言模型中的最新进展，强调了其对视觉变压器和 LLMs 的革命潜力。同时通过对多个领先的付费和开源 LLMs 的性能指标的对比分析，揭示了它们的优势和改进空间，并回顾了 LLMs 如何用于解决视觉相关任务的文献综述。此外，该综述还提供了用于训练 LLMs 的全面数据集合，并为 LLMs 的预训练和下游任务的高性能实现提供了洞见。综述通过强调 LLMs 在 CV 上的深刻交叉，指出了集成和先进 AI 模型的新时代的潜在研究和发展方向。

大型语言模型与计算机视觉的融合：简要概述

BriefGPT - AI 论文速递 ·

Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers under Label Noise

Beyond Traditional Transformers: Medical X-ray Attention (MXA) Block for Improved Multi-label Diagnosis through Knowledge Distillation

从零开始构建视觉变压器

Prompt-CAM：一种更简单的可解释变压器用于细粒度分析

超越2:4：在GPU上高效变换器推理的V:N:M稀疏性探索

通过令牌扩展的 Transformer 通用高效训练

请教英伟达小哥哥，解读 Sora 真正的技术突破

大型语言模型与计算机视觉的融合：简要概述