小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
深度学习视觉架构的历史

这篇文章介绍了Mohammed Al Abrah创建的视觉变换器历史课程,涵盖了深度学习视觉模型的演变,如LeNet、AlexNet和ResNet。课程讲解了设计理念和架构特点,结合视觉效果与历史背景,帮助理解模型的信息处理方式。

深度学习视觉架构的历史

freeCodeCamp.org
freeCodeCamp.org · 2025-10-09T14:22:42Z
从零开始构建自己的视觉变换器模型

视觉变换器(ViT)改变了计算机视觉的处理方式,超越了传统的卷积神经网络。freeCodeCamp.org YouTube频道推出了一门新课程,教授如何使用PyTorch从零构建ViT模型,内容包括数据准备、模型训练和优化,结合理论与实践,帮助学习者掌握计算机视觉的前沿技术。

从零开始构建自己的视觉变换器模型

freeCodeCamp.org
freeCodeCamp.org · 2025-05-28T13:40:21Z
构建Virtus:我如何微调视觉变换器以识别深度伪造

该项目开发了一款名为Virtus的深度伪造检测工具,基于视觉变换器(ViT)模型,因其在细节处理上的优势。通过Kaggle数据集,采用数据平衡和增强技术进行训练,最终实现99.2%的准确率,并发布在Hugging Face平台。

构建Virtus:我如何微调视觉变换器以识别深度伪造

DEV Community
DEV Community · 2025-05-12T14:12:38Z

本研究探讨了自监督学习在眼科影像中对年龄相关性黄斑变性(AMD)识别的影响。通过基准测试六种视觉变换器,发现基于自然图像预训练的iBOT在外部分布泛化上表现最佳,AUROC值达到0.80-0.97,显示基础模型在AMD识别中的重要性。

Benchmarking Ophthalmology Foundation Models for Clinically Significant Age-Related Macular Degeneration Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本文提出了一种新颖的端到端框架,结合ResNet和视觉变换器,利用可变形卷积等先进技术,显著提升自然图像的文本识别性能。实验结果表明,该框架在多个数据集上表现优异。

End-to-End Text Recognition and Retrieval-Augmented Generation Based on Deformable Optimized Transformer Architecture

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究探讨了视觉变换器(ViTs)在植物疾病检测中的应用,克服了传统农业技术在可扩展性和准确性方面的局限性。ViTs在处理长距离依赖性方面表现优越,可能对现代农业产生重要影响。

Application of Vision Transformers in Precision Agriculture: A Comprehensive Survey

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究提出了一种基于视觉变换器的创新框架,以提高假视频检测的效果。该方法在新的视频数据集上表现优异,显示了其在打击虚假信息传播方面的广泛应用潜力。

Advancing Fake Video Detection via Vision Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究提出自我控制动态扩展模型(SCDEM),克服了持续学习中静态模型的局限性。该模型利用多个可训练的视觉变换器生成多样化表示,并引入协同优化机制,显著提升新任务的学习效果,实验结果表明其性能达到最先进水平。

Self-Controlled Dynamic Expansion Model for Continual Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了EDIT(编码-解码图像变换器)架构,旨在解决视觉变换器模型中的注意力下沉问题。该方法通过层对齐的结构优化特征提取,提升了在ImageNet数据集上的性能。

EDIT: Enhancing Vision Transformers by Mitigating Attention Sink through an Encoder-Decoder Architecture

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z

本研究提出了一种可转移掩码变换器(TMT),旨在解决预训练视觉变换器在新目标域适应时性能下降的问题。该方法通过空间可转移性分析提升跨域表示的对齐,在语义分割任务中MIoU平均提升2%。

Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究探讨了视觉变换器在处理扭曲图像时的可解释性,发现深层注意力头对任务的影响显著,揭示了模型功能的专业化,增强了理解和透明度。

对扭曲图像的微调视觉变换器的机制可解释性:解码注意力头行为以实现透明和可信的人工智能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z
大型语言模型如何理解图像:看得见的人工智能背后的秘密

人工智能正从文本处理转向图像理解,得益于多模态学习。视觉变换器(ViT)和CLIP等模型通过共享嵌入空间,使AI能够同时处理文本和图像。AI将图像分割为小块,并利用自注意力机制理解整体上下文。这一进展提升了AI在搜索和自动图像描述等领域的能力,未来将整合视频和音频等信息。

大型语言模型如何理解图像:看得见的人工智能背后的秘密

DEV Community
DEV Community · 2025-03-22T03:18:00Z

本研究提出了一种新方法,利用高光谱成像自动检测猪肉腹部异物,解决食品加工中的污染物检测问题。该方法结合预处理技术和轻量级视觉变换器,实现了高检出率,有效应对噪声和温度变化等挑战。

Identification of Foreign Objects in Pork Abdomen Using Hyperspectral Imaging

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种新型混合框架CB-Res-RBCMT,用于乳腺癌检测。该框架结合了残差卷积神经网络和视觉变换器,通过区域和边界特征提取,显著提高了细微对比度和纹理变异的识别能力,最终在标准数据集上取得了95.57%的F1分数和95.63%的准确率。

A Novel Channel-Boosted Residual CNN-Transformer with Regional Boundary Learning for Breast Cancer Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出了一种新颖的视觉解释方法——动态累积注意力图(DAAM),用于可视化视觉变换器(ViT)中的注意力流,揭示了决策注意力的动态演变,并验证了其在自监督和监督ViT模型中的有效性和优越性。

Dynamic Accumulated Attention Map for Interpreting the Evolution of Decision-Making in Vision Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z
可学习的神经注意力提升视觉变换器性能,同时降低计算能力需求

研究人员提出了一种可学习的Kolmogorov-Arnold注意力(KA-Attention),用以替代传统视觉变换器中的固定注意力机制。KA-Attention通过可训练的神经网络替代softmax函数,提升了计算机视觉任务的性能,降低了计算复杂度,并增强了对抗攻击和分布外数据的鲁棒性。

可学习的神经注意力提升视觉变换器性能,同时降低计算能力需求

DEV Community
DEV Community · 2025-03-17T11:39:32Z
Swin变换器

分层变换器是一种变换器模型的变体,以多层结构处理数据。Swin变换器具有线性计算复杂度,相比早期视觉变换器在处理图像大小时更高效。

Swin变换器

DEV Community
DEV Community · 2025-03-17T00:55:06Z

本研究分析了扩展语义类别对视觉变换器(ViTs)图像分类性能的影响,发现初期扩展能提高准确性,但超过临界阈值后收益减小,为优化提供了新见解。

扩展语义类别:研究其对视觉变换器标签性能的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-16T00:00:00Z

本研究提出了一种无数据模仿学习的方法,通过2D生成视频学习3D运动技能,利用视觉变换器进行视频比较。实验结果表明,该方法在特定人形机器人运动任务中优于传统的3D运动捕捉训练,展示了生成视频模型在模仿学习中的潜力。

No-data Imitation Learning: Leveraging Pre-trained Video Diffusion Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究提出了一种基于YOLOv9和视觉变换器的自动化碎片计数方法,旨在解决数字病理中医疗图像质量控制的人工计数问题。该系统的准确率达到86%,有望在病理工作流程中得到应用。

CountPath: Automating Fragment Counting in Digital Pathology

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码