小红花·文摘

深度学习视觉架构的历史

freeCodeCamp.org ·

从零开始构建自己的视觉变换器模型

freeCodeCamp.org ·

构建Virtus：我如何微调视觉变换器以识别深度伪造

DEV Community ·

本研究探讨了自监督学习在眼科影像中对年龄相关性黄斑变性（AMD）识别的影响。通过基准测试六种视觉变换器，发现基于自然图像预训练的iBOT在外部分布泛化上表现最佳，AUROC值达到0.80-0.97，显示基础模型在AMD识别中的重要性。

Benchmarking Ophthalmology Foundation Models for Clinically Significant Age-Related Macular Degeneration Detection

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的端到端框架，结合ResNet和视觉变换器，利用可变形卷积等先进技术，显著提升自然图像的文本识别性能。实验结果表明，该框架在多个数据集上表现优异。

End-to-End Text Recognition and Retrieval-Augmented Generation Based on Deformable Optimized Transformer Architecture

BriefGPT - AI 论文速递 ·

本研究探讨了视觉变换器（ViTs）在植物疾病检测中的应用，克服了传统农业技术在可扩展性和准确性方面的局限性。ViTs在处理长距离依赖性方面表现优越，可能对现代农业产生重要影响。

Application of Vision Transformers in Precision Agriculture: A Comprehensive Survey

BriefGPT - AI 论文速递 ·

本研究提出了一种基于视觉变换器的创新框架，以提高假视频检测的效果。该方法在新的视频数据集上表现优异，显示了其在打击虚假信息传播方面的广泛应用潜力。

Advancing Fake Video Detection via Vision Transformers

BriefGPT - AI 论文速递 ·

本研究提出自我控制动态扩展模型（SCDEM），克服了持续学习中静态模型的局限性。该模型利用多个可训练的视觉变换器生成多样化表示，并引入协同优化机制，显著提升新任务的学习效果，实验结果表明其性能达到最先进水平。

Self-Controlled Dynamic Expansion Model for Continual Learning

BriefGPT - AI 论文速递 ·

本研究提出了EDIT（编码-解码图像变换器）架构，旨在解决视觉变换器模型中的注意力下沉问题。该方法通过层对齐的结构优化特征提取，提升了在ImageNet数据集上的性能。

EDIT: Enhancing Vision Transformers by Mitigating Attention Sink through an Encoder-Decoder Architecture

BriefGPT - AI 论文速递 ·

本研究提出了一种可转移掩码变换器（TMT），旨在解决预训练视觉变换器在新目标域适应时性能下降的问题。该方法通过空间可转移性分析提升跨域表示的对齐，在语义分割任务中MIoU平均提升2%。

Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation

BriefGPT - AI 论文速递 ·

本研究探讨了视觉变换器在处理扭曲图像时的可解释性，发现深层注意力头对任务的影响显著，揭示了模型功能的专业化，增强了理解和透明度。

对扭曲图像的微调视觉变换器的机制可解释性：解码注意力头行为以实现透明和可信的人工智能

BriefGPT - AI 论文速递 ·

大型语言模型如何理解图像：看得见的人工智能背后的秘密

DEV Community ·

本研究提出了一种新方法，利用高光谱成像自动检测猪肉腹部异物，解决食品加工中的污染物检测问题。该方法结合预处理技术和轻量级视觉变换器，实现了高检出率，有效应对噪声和温度变化等挑战。

Identification of Foreign Objects in Pork Abdomen Using Hyperspectral Imaging

BriefGPT - AI 论文速递 ·

本研究提出了一种新型混合框架CB-Res-RBCMT，用于乳腺癌检测。该框架结合了残差卷积神经网络和视觉变换器，通过区域和边界特征提取，显著提高了细微对比度和纹理变异的识别能力，最终在标准数据集上取得了95.57%的F1分数和95.63%的准确率。

A Novel Channel-Boosted Residual CNN-Transformer with Regional Boundary Learning for Breast Cancer Detection

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的视觉解释方法——动态累积注意力图（DAAM），用于可视化视觉变换器（ViT）中的注意力流，揭示了决策注意力的动态演变，并验证了其在自监督和监督ViT模型中的有效性和优越性。

Dynamic Accumulated Attention Map for Interpreting the Evolution of Decision-Making in Vision Transformers

BriefGPT - AI 论文速递 ·

可学习的神经注意力提升视觉变换器性能，同时降低计算能力需求

DEV Community ·

Swin变换器

DEV Community ·

本研究分析了扩展语义类别对视觉变换器（ViTs）图像分类性能的影响，发现初期扩展能提高准确性，但超过临界阈值后收益减小，为优化提供了新见解。

扩展语义类别：研究其对视觉变换器标签性能的影响

BriefGPT - AI 论文速递 ·

本研究提出了一种无数据模仿学习的方法，通过2D生成视频学习3D运动技能，利用视觉变换器进行视频比较。实验结果表明，该方法在特定人形机器人运动任务中优于传统的3D运动捕捉训练，展示了生成视频模型在模仿学习中的潜力。

No-data Imitation Learning: Leveraging Pre-trained Video Diffusion Models

BriefGPT - AI 论文速递 ·

本研究提出了一种基于YOLOv9和视觉变换器的自动化碎片计数方法，旨在解决数字病理中医疗图像质量控制的人工计数问题。该系统的准确率达到86%，有望在病理工作流程中得到应用。

CountPath: Automating Fragment Counting in Digital Pathology

BriefGPT - AI 论文速递 ·