小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了一种创新的自监督学习方法,通过局部遮罩图像建模和渐进层冻结相结合,提高了Vision Transformers(ViTs)中初始层训练的效率和速度。该方法采用了多尺度重构过程,实现了高效学习和跨尺度的语义理解。实验结果表明,该方法在准确性最小影响的情况下,大幅减少了训练时间。该方法在计算资源和时间至关重要的场景中具有潜力,标志着计算机视觉领域自监督学习的进步。

HySparK:大规模医学图像的混合稀疏掩蔽预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-11T00:00:00Z

本研究成功地将预先训练的Vision Transformers(ViT)应用于目视检测,并证明了与CNN的互补性。预先训练模型的一小部分在资源有限的环境中也能达到良好准确性。通过添加传统手工制作的特征,算法效率进一步提高。

基于预训练 CNN 和 ViT 特征的结合:另一个令人惊叹的识别基准线

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-28T00:00:00Z

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,解决了由结构化注意力模式引起的语义信息丧失问题。该方法可以在保证准确率的情况下显著减少计算量,达到更优的精度-计算复杂度平衡点。结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Fibottention: 多头多视线接纳的初级视觉表征学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

本文提出了一种基于学习的、实例相关的注意力机制来加速Vision Transformers网络,通过限制自注意力操作在空间上邻近的一组Token上,并评估Token之间的连接得分来解决语义信息丧失问题。该方法可以显著减少计算量,降低Vision Transformers网络的FLOPs超过60%。

视觉 Transformer 中的区域与稀疏注意力融合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

本文提出了一种基于学习的、实例相关的注意力机制来加速Vision Transformers网络,通过限制自注意力操作在空间上邻近的一组Token上,并评估Token之间的连接得分来解决语义信息丧失问题。该方法可以显著减少计算量,降低Vision Transformers网络的FLOPs超过60%。

ToSA:用于高效视觉 Transformer 的令牌选择性注意力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

研究人员提出了一种名为“随机共振变压器”(SRT)的零样本方法,通过子标记空间平移扰动输入图像,改善了Vision Transformers(ViTs)中的量化伪像问题。SRT可以有效地超分辨率预训练ViTs的特征,捕捉到更多的局部细粒度结构,并在多个任务上展现改进效果,无需微调。

使用二进制球面量化对图像和视频进行令牌化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文综合调查了Vision Transformers(ViTs)的模型量化和硬件加速方面,探讨了ViTs的架构特性、运行时特性、模型量化原则,以及最新的量化技术。同时,还探索了量化ViTs的硬件加速,并强调了硬件友好算法设计的重要性。讨论了未来的挑战和研究方向。

视觉 Transformer 模型量化和硬件加速:综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-01T00:00:00Z

该研究使用Vision Transformers将6D姿态估计问题转化为回归任务,并引入了一种简单的方法来确定姿态的置信度。该方法在Linemod-Occlusion和YCB-V数据集上表现优于当前最先进方法,提高了模型的可解释性和推理性能的可靠性。

SDPose:基于循环引导自蒸馏的分词姿态估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

本文介绍了SegVit模型,使用Vision Transformers进行语义分割,包括Attention-to-Mask(ATM)模块和基于查询的下采样(QD)和上采样(QU)技术。实验证明,使用ATM模块的SegVit模型在ADE20K数据集上优于常规ViT骨干网络的SegVit模型,并在COCO-Stuff-10K和PASCAL-Context数据集上达到了新的最佳性能。

ConSept:基于适配器的视觉 Transformer 的持续语义分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-26T00:00:00Z

本文介绍了ViT-ReciproCAM,一种用于解决Vision Transformers在图像分类和目标检测中预测错误挑战的梯度无关的视觉解释方法。该方法通过生成局部化的显著性地图来优化ADCC指标,有效地理解和调试ViT模型。

注意力导向 CAM:自注意力引导视觉变换器的视觉解释

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-07T00:00:00Z

本文介绍了一种创新的自监督学习方法,通过局部遮罩图像建模和渐进层冻结相结合,提高了Vision Transformers(ViTs)中初始层训练的效率和速度。该方法采用了多尺度重构过程,实现了高效学习和跨尺度的语义理解。实验结果表明,该方法在准确性最小影响的情况下,大幅减少了训练时间。该方法在计算资源和时间至关重要的场景中具有潜力,标志着计算机视觉领域自监督学习的进步。

SmartFRZ:一种利用基于注意力的层冻结的高效训练框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

IdleViT是一种改善Vision Transformers计算复杂度的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,并在微调后的ImageNet上准确率下降不超过0.2%。同时,在保留比例为0.5时,IdleViT在DeiT-S上的准确率更高,推理速度更快。

高效的视觉 Transformer 的令牌传播控制器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-03T00:00:00Z

本研究提出了一种基于Vision Transformers构建的简单通用的U-ViT架构,实现了无条件和类条件图像生成以及文本到图像生成任务的优化。研究结果表明,长跳过连接对于基于扩散的图像建模至关重要,而CNN-based U-Net中的下采样和上采样算子并非总是必要的。

DiffiT:用于图像生成的扩散视觉 Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-04T00:00:00Z

研究将6D姿态估计问题转化为回归任务,利用Vision Transformers进行探索,并引入了确定姿态置信度的简单方法。方法PViT-6D在Linemod-Occlusion和YCB-V数据集上表现优于最先进方法,提高了可解释性和推理性能的可靠性。

PViT-6D:使用置信水平预测和姿态令牌超频视觉变换器的 6D 位姿估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-29T00:00:00Z

IdleViT是一种改善Vision Transformers计算复杂度问题的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,准确率下降不超过0.2%。在保留比例为0.5时,IdleViT在DeiT-S上具有更高的准确率和更快的推理速度。

用于视觉 Transformer 的高效顺序推理的令牌回收

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-26T00:00:00Z

研究发现Vision Transformers(ViTs)中存在量化伪像,提出了一种零样本方法SRT来改善预训练ViTs处理空间量化的方式。SRT可以有效地超分辨率预训练ViTs的特征,捕捉到更多的局部细粒度结构。在不同任务中,SRT都能提高模型性能。此外,SRT还适用于非密集预测任务,产生了一致的改进效果。

Spectro-ViT:使用频谱图的 GABA 编辑 MRS 重建的视觉 Transformer 模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-26T00:00:00Z

本文提出了一种使用Vision Transformers(ViTs)在patch级别比较两个图像的方法,经过对CASIA Webface数据集上的2M对图像进行训练,该方法在大样本外分布数据上的准确度相当于DeepFace-EMD,但推理速度是DeepFace-EMD的两倍以上。此外,该模型在可视化交叉注意力方面显示出有希望的解释性。

基于 Vision Transformers 的快速且可解释的非分布数据人脸识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-06T00:00:00Z

本文介绍了一种名为Vision Transformers (ViTs)的模型,使用自我监督学习(SSAT)作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现。实验证明了SSAT的显著性提升并减少了碳足迹,同时在视频领域的Deepfake检测上也验证了其普遍适用性。

有限数据,无限潜力:ViT 与遮蔽自编码器增强的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

该文介绍了一种使用预训练的Vision Transformers(ViT)提取视觉描述符的方法,用于零样本新目标6D姿态估计。该方法在多个数据集上进行了实验,结果表现卓越,无需进行特定任务的微调。与其他方法相比,该方法在三个数据集上都有显著提升。

MFOS: 无模型且一次性物体姿态估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z

该研究提出了一种基于Vision Transformers构建的U-ViT架构,采用标记方法对所有输入进行处理,并在浅层和深层之间采用长跳过连接,实现无条件和类条件图像生成,以及文本到图像生成任务的优化。长跳过连接对于基于扩散的图像建模至关重要,而CNN-based U-Net中的下采样和上采样算子并非总是必要的。

Diffusion U-Net 中的免费午餐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码