HyperSIGMA是一种基于Vision Transformer的高光谱图像处理模型,结合稀疏采样注意力机制和光谱增强模块,有效整合空间与光谱特征,展现出优越性能和广泛应用潜力。
本文介绍了一种新的注意力特征提取框架ARBEx,由Vision Transformer驱动,解决面部表情学习中的类别分布不均和不确定性问题。通过学习型锚点、标签分布和多头自注意机制,提升性能和标签预测的稳定性。实验结果显示,该方法优于现有技术。
本论文研究了基于Vision Transformer(ViT)的目标检测模型YOLOS的可迁移性。实验结果显示,YOLOS以纯sequence-to-sequence的方式完成目标检测,附加的归纳偏置最小。与DETR相比,YOLOS选择了仅编码器的Transformer架构,并使用预训练的ViT表达。实验结果表明,YOLOS在复杂的目标检测任务上具有竞争力的性能。
该研究提出了一种基于Transformer的新框架,通过使用Vision Transformer和Transformer模型,实现了情感估计、面部表情识别和动作元检测。引入了随机帧遮罩的学习技术和Focal损失的应用,增强了情绪和行为分析的准确性和适用性。预计对情感计算和深度学习方法的发展有所助益。
本文介绍了基于Vision Transformer的HyperSIGMA模型,用于处理高光谱图像中的光谱和空间冗余问题,并通过光谱增强模块整合特征。实验证明HyperSIGMA在高级和低级HSI任务上具有多功能性和优越的代表能力,并在可扩展性、健壮性、跨模态传输能力和实际应用性方面具有优势。
本文介绍了AdaNCA方法,用于增强Vision Transformer(ViT)的性能和鲁棒性。AdaNCA通过插入NCA来抵抗对抗攻击,并提高分布之外输入的准确度。在ImageNet1K基准测试中,AdaNCA仅增加不到3%的参数,对抗攻击下准确度提高超过10%。通过广泛评估,证明AdaNCA能够一致提高ViTs的鲁棒性。
本文介绍了一种利用Vision Transformer和Derandomized Smoothing相结合的方法来提高图像建模任务的准确性。该方法在ImageNet数据集上达到了41.70%的证明准确度,比之前最佳方法高出近1倍。同时,在CIFAR-10和ImageNet上实现了最先进的干净和证明准确度。
这篇文章介绍了一种名为查询包(BoQ)的新技术,它在视觉地点识别中表现出卓越性能。BoQ通过与CNN和Vision Transformer集成,并通过广泛实验证明了其优越性能。同时,BoQ作为一种全局检索技术,在速度和效率上超过了其他两阶段检索方法。
本文提出了一种基于Vision Transformer (ViT)架构的任务内互注意方法,用于少样本学习。该方法通过交换支持集和查询集的类别标记与图像片段标记,实现了互注意,加强了类内表征,促进了同一类别样本之间的相似性。在五个常见的少样本分类基准任务中,该方法在5-shot和1-shot情况下表现更好,同时具有简单、高效的计算能力。
本文介绍了视觉领域中使用transformer的方法,包括Vision Transformer、SASA-Layer和Rethinking and Improving Relative Position Encoding for Vision Transformer等模型。这些方法在图像分类和其他视觉任务中表现出色。
本研究使用Vision Transformer模型结合近似计算方法分析了低功耗设备上Transformer模型的计算要求和性能折衷,提出了使用蒙特卡洛树搜索算法生成Vision Transformer模型的近似加速器的方法,实现了显著的功耗优化。
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
本论文提出了一种创新的 Vision Transformer 算法,用于诊断和量化 COVID-19 的严重程度。实验结果显示,该模型具有卓越的泛化能力和最先进的性能。
该文介绍了一种高分辨率人像抠图的轻量级模型,采用了两阶段的框架,通过 Vision Transformer 作为低分辨率网络的主干,能够在高清视频中实时进行处理。该模型在细化网络中提出了一种新颖的跨区域注意力模块,取得了优越结果。
本文研究了在线测试时间适应(OTTA)的机器学习模型在新数据分布上的适应能力,分类为三个主要类别,并使用 Vision Transformer(ViT)基础模型进行基准测试。研究结果表明,变换器表现出对不同领域转换的高度弹性,批次大小对 OTTA 方法的功效至关重要,优化的稳定性和对干扰的抵抗力也很重要。
本研究提出了一种新颖的双凹中注意力算法,结合CNN和Vision Transformer设计了生物仿生鹰眼视觉模块,最终完成了统一高效的金字塔主干网络家族的开发。实验结果表明EViTs在多个计算机视觉任务上具有显著的优势。
本文研究了建筑元素对异构联邦学习性能的影响,提供了微体系结构设计原则的指导。通过架构修改,纯CNN能够达到与Vision Transformer相匹配的表现,在鲁棒性方面甚至超越其表现。该方法与现有联邦学习技术兼容,在联邦学习基准测试中提供了最先进的解决方案。
Enki是一种使用Vision Transformer和Masked Autoencoding的无监督机器学习算法,用于重构遮蔽像素以缓解云掩码对海表温度数据分析的影响。通过训练四种不同的Enki模型来识别和重构LLC4320 SST图像中的遮蔽像素,该方法具有很好的重构效果,为未来应用提供了广阔的发展前景。
该文介绍了一种基于Vision-Transformer的语义蒸馏协助显著目标检测方法,通过融合从生成的图像字幕中语义蒸馏的知识,可以更好地揭示物体之间、物体与环境之间的显著性,并提高了模型性能。在五个基准数据集上的实验表明,该方法优于现有技术。
本文介绍了使Vision Transformer高效的策略,并讨论了最先进的方法学及其在不同应用场景下的性能分析。
完成下面两步后,将自动完成登录并继续当前操作。