小红花·文摘

Loop-ViT：让AI学会「反复思考」，3.8M参数小模型追平人类平均水平

机器之心 ·

Qwen—Image—Layered模型被认为优于Nano Banana，具备图像分层编辑能力，支持细节修改和透明度处理，适合海报制作。其核心技术为扩散模型，能够将图片拆分为多个可编辑图层，提高图像处理的灵活性和效率。

ViT一作盛赞：这个中国开源“PS模型”强过Nano Banana

量子位 ·

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

机器之心 ·

ViT（视觉变换器）通过将图像分割为小块并利用自注意力机制，成为计算机视觉领域的重要模型。尽管缺乏先验知识，但在大数据集上表现优越。Swin Transformer在此基础上进一步改进，适应多尺度特征，提升检测和分割效果。

一文通透ViT：把图片划分成一个个patch块后再做注意力计算，打破CNN在CV领域的统治地位(含Swin Transformer的详解)

结构之法算法之道 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

刚刚，OpenAI苏黎世办公室被Meta一锅端，三名ViT作者被挖走

机器之心 ·

本研究提出了一种新的八次对称ViT架构，有效提升了计算机视觉模型的性能与效率。实验结果显示，该方法在分类和分割任务中显著提高了性能，同时将ViT-H的计算复杂度降低约40%。

更强的八次对称ViT

BriefGPT - AI 论文速递 ·

本文探讨了英伟达的视觉语言模型Eagle 2，强调数据策略在模型开发中的关键作用。作者详细介绍了数据收集、过滤和选择的方法，提出多样化数据可提升模型性能。Eagle 2在多模态基准测试中表现出色，展示了开源视觉语言模型的潜力与发展方向。

多模态LLaVA系列与Eagle 2——从组合CLIP ViT和Vicuna的LLaVA，到英伟达开源的VLM Eagle 2(用于人形VLA GR00T N1中)

结构之法算法之道 ·

本研究分析了不同深度学习分类器在物联网生态系统中对高维数据的降维效果。结果表明，变分自动编码器（VAE）在准确率等指标上优于视觉转换器（ViT），为物联网安全提供了更有效的僵尸网络检测方法。

潜在空间维度对物联网僵尸网络检测性能的影响：VAE编码器与ViT编码器的比较

BriefGPT - AI 论文速递 ·

多模态大模型应用实践（二）- 基于 ViT 和 Pairwise 的智能酒店首图选择

亚马逊AWS官方博客 ·

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B，包含1000亿图像-文本对，增强了多样性和多语言能力。研究表明，数据规模越大，模型对细节的理解越好，但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华，他将于2024年加入OpenAI。

谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

量子位 ·

本文介绍了Diffusion Transformer（DiT），一种用Transformer架构替代U-Net的神经网络，结合了视觉Transformer和扩散模型的优点。DiT在视频生成中调整模型结构以支持不同分辨率，并引入时间维度以保持一致性。研究者还探讨了类似的U-ViT架构，强调了Transformer在扩散模型中的潜力。

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)

结构之法算法之道 ·

本文探讨了如何使用Hugging Face的transformer库生成图像描述。通过ViT-GPT2模型，输入图像后，模型能够生成相应的文本描述。文章介绍了模型架构、环境设置及推理过程，强调了Hugging Face的灵活性和可用性，用户可以轻松生成图像标题并尝试不同模型以优化效果。

如何使用视觉变换器（ViT）和Hugging Face Transformers 实现图像描述生成

KDnuggets ·

DINO是一种自监督学习方法，通过知识蒸馏提升视觉Transformer的特征质量。它动态构建教师网络，利用学生网络输出进行训练，优化图像特征学习。DINO采用多裁剪策略和温度softmax，提升模型性能。

从DINO、Grounding Dino到DINOv2、DINO-X——自监督视觉Transformer的升级改进之路(基于ViT)

结构之法算法之道 ·

本研究提出了一种名为FCL-ViT的反馈持续学习视觉变换器，旨在解决持续学习中在适应新任务的同时保留旧知识的问题。该方法通过实时动态注意力特征生成，针对当前任务进行调节，表现出优于现有基准的持续学习性能，并且可训练参数较少。

FCL-ViT: Task-Aware Attention Tuning for Continual Learning

BriefGPT - AI 论文速递 ·

最近的研究提出了 DeViT 框架，通过将大型视觉转换器分解为多个小模型，实现高效协同推理，适用于边缘设备。该方法利用知识蒸馏和特征匹配模块提升小模型的性能。在 CIFAR-100 和 ImageNet-1K 数据集上，DeViT 在效率和准确性上表现优异。

ED-ViT：针对边缘设备的分布式推理视觉变换器

BriefGPT - AI 论文速递 ·

研究比较了轻量级视觉变换器（ViTs）和轻量级卷积神经网络（CNNs）在移动设备上的性能，提出了新的轻量级CNNs家族RepViT。实验表明，RepViT在ImageNet上表现优异，在iPhone 12上准确率超过80%，延迟仅1毫秒。最大模型RepViT-M3达到了81.4%的准确率。

HydraViT：堆叠头部以实现可扩展的ViT

BriefGPT - AI 论文速递 ·

我们提出了一种自我监督的机器学习框架OCT-SelfNet，用于眼部疾病检测。通过多个机构的数据集和两阶段训练方法，我们的方法在测试中获得了超过77%的AUC-ROC性能，相比基线模型提升了至少10%。

基因信息分析与年龄相关的黄斑变性患者的多模态选择性ViT

BriefGPT - AI 论文速递 ·

该文章介绍了一种新的视觉Transformer（ViT）架构，使用超像素非规则标记化策略提取图像特征。该方法在提升归因真实性和零样本无监督密集预测任务中有显著改进。实验结果表明，该方法在分类任务中表现出色，并提供了更丰富的Transformer空间。

SPiT：超像素驱动的非规则ViT标记化，实现更真实的图像理解 | ECCV 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文介绍了标记补偿器（ToCom）的方法，解决了标记压缩在训练和推理阶段压缩程度不匹配导致的性能下降问题。ToCom通过自蒸馏训练在预训练模型上描述不同压缩程度下模型之间的差距。在推理过程中，ToCom可以直接插入到下游现成模型中，提高模型性能。实验结果表明，ToCom能够有效解耦训练和推理过程中的标记压缩程度，并提高标记压缩性能。

ToCom：一次训练随意使用，华为提出通用的ViT标记压缩器 | ECCV 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本论文研究了基于Vision Transformer（ViT）的目标检测模型YOLOS的可迁移性。实验结果显示，YOLOS以纯sequence-to-sequence的方式完成目标检测，附加的归纳偏置最小。与DETR相比，YOLOS选择了仅编码器的Transformer架构，并使用预训练的ViT表达。实验结果表明，YOLOS在复杂的目标检测任务上具有竞争力的性能。

YOLOS：大道至简，直接使用预训练ViT进行实时目标检测 | NeurIPS 2021 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·