本文介绍了广义Few-Shot语义分割(GFS-Seg)数据集及上下文感知原型学习(CAPL)方法,旨在提升少样本语义分割模型的性能。实验结果表明,CAPL在Pascal-VOC和COCO数据集上表现优异,具备良好的泛化能力和竞争力。此外,研究探讨了Vision Transformers在语义分割中的应用,并提出多种改进模型,强调稳健特征提取器的重要性。
本文探讨了自监督学习模型在组织病理学图像分析中的应用,提出了基于DINO知识蒸馏的Vision Transformers模型,显著提高了预测准确性。同时介绍了新型生成模型ViT-DAE和自我蒸馏方法,解决了领域泛化问题,并在多个数据集上展示了优越性能。
近期,人工智能在初级医疗服务中的应用显著提升,特别是Vision Transformers(ViT)在医学影像学中的表现。可解释的人工智能(XAI)对理解模型决策过程至关重要。研究表明,ViT的逐层相关传播法优于传统模型,提升了医学图像分割的准确性。尽管注意力机制被广泛使用,其对临床决策的实际效益仍需进一步探讨。
本文介绍了SegVit模型,使用Vision Transformers进行语义分割,包括Attention-to-Mask(ATM)模块和基于查询的下采样(QD)和上采样(QU)技术。实验证明,使用ATM模块的SegVit模型在ADE20K数据集上优于常规ViT骨干网络的SegVit模型,并在COCO-Stuff-10K和PASCAL-Context数据集上达到了新的最佳性能。
本文介绍了ViT-ReciproCAM,一种用于解决Vision Transformers在图像分类和目标检测中预测错误挑战的梯度无关的视觉解释方法。该方法通过生成局部化的显著性地图来优化ADCC指标,有效地理解和调试ViT模型。
本文介绍了一种创新的自监督学习方法,通过局部遮罩图像建模和渐进层冻结相结合,提高了Vision Transformers(ViTs)中初始层训练的效率和速度。该方法采用了多尺度重构过程,实现了高效学习和跨尺度的语义理解。实验结果表明,该方法在准确性最小影响的情况下,大幅减少了训练时间。该方法在计算资源和时间至关重要的场景中具有潜力,标志着计算机视觉领域自监督学习的进步。
IdleViT是一种改善Vision Transformers计算复杂度的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,并在微调后的ImageNet上准确率下降不超过0.2%。同时,在保留比例为0.5时,IdleViT在DeiT-S上的准确率更高,推理速度更快。
本研究提出了一种基于Vision Transformers构建的简单通用的U-ViT架构,实现了无条件和类条件图像生成以及文本到图像生成任务的优化。研究结果表明,长跳过连接对于基于扩散的图像建模至关重要,而CNN-based U-Net中的下采样和上采样算子并非总是必要的。
研究将6D姿态估计问题转化为回归任务,利用Vision Transformers进行探索,并引入了确定姿态置信度的简单方法。方法PViT-6D在Linemod-Occlusion和YCB-V数据集上表现优于最先进方法,提高了可解释性和推理性能的可靠性。
IdleViT是一种改善Vision Transformers计算复杂度问题的方法,通过动态删除图像令牌并保持其余令牌空闲。实验证明,IdleViT可以降低预训练ViTs的复杂性,准确率下降不超过0.2%。在保留比例为0.5时,IdleViT在DeiT-S上具有更高的准确率和更快的推理速度。
研究发现Vision Transformers(ViTs)中存在量化伪像,提出了一种零样本方法SRT来改善预训练ViTs处理空间量化的方式。SRT可以有效地超分辨率预训练ViTs的特征,捕捉到更多的局部细粒度结构。在不同任务中,SRT都能提高模型性能。此外,SRT还适用于非密集预测任务,产生了一致的改进效果。
本文提出了一种使用Vision Transformers(ViTs)在patch级别比较两个图像的方法,经过对CASIA Webface数据集上的2M对图像进行训练,该方法在大样本外分布数据上的准确度相当于DeepFace-EMD,但推理速度是DeepFace-EMD的两倍以上。此外,该模型在可视化交叉注意力方面显示出有希望的解释性。
本文介绍了一种名为Vision Transformers (ViTs)的模型,使用自我监督学习(SSAT)作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现。实验证明了SSAT的显著性提升并减少了碳足迹,同时在视频领域的Deepfake检测上也验证了其普遍适用性。
该文介绍了一种使用预训练的Vision Transformers(ViT)提取视觉描述符的方法,用于零样本新目标6D姿态估计。该方法在多个数据集上进行了实验,结果表现卓越,无需进行特定任务的微调。与其他方法相比,该方法在三个数据集上都有显著提升。
该研究提出了一种基于Vision Transformers构建的U-ViT架构,采用标记方法对所有输入进行处理,并在浅层和深层之间采用长跳过连接,实现无条件和类条件图像生成,以及文本到图像生成任务的优化。长跳过连接对于基于扩散的图像建模至关重要,而CNN-based U-Net中的下采样和上采样算子并非总是必要的。
该文介绍了基于查询的黑盒攻击(QBBA)如何利用图像查询的模型输出概率创建扰动,而无需访问底层模型,给现实世界应用带来了真实威胁。作者提出了基于非加性随机性的模型防御策略,并关注于基于灵活架构的未被充分探索的Vision Transformers。实验表明,该防御方法能够在不过多降低性能的情况下实现有效的防御。
近期人工智能在初级医疗服务中得到广泛应用,解决了医疗保健领域的需求供应失衡问题。Vision Transformers(ViT)是最先进的计算机视觉模型,但其复杂性可能导致人们对其运作方式的不确定性。可解释的人工智能(XAI)方法对医疗领域的决策过程尤为重要。本综述总结了最近 ViT 的进展和解释性方法,以实现医疗诊断应用的透明性。
本文研究了Vision Transformers在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,而对形状和结构的归纳偏差较强。相比卷积神经网络,Vision Transformers在分布偏移情况下具有更好的泛化性能,准确度高出5%以上。作者提出了增强泛化性能的GE-ViTs,并设计了更平滑的学习策略以优化其性能。
本文研究了Vision Transformers在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,对形状和结构的归纳偏差较强。相对于卷积神经网络,在分布偏移情况下具有更好的泛化性能,且使用相同数量的参数,在大多数类型的分布偏移下,比相应的CNN模型准确度高出5%以上。此外,作者还提出了增强泛化性能的GE-ViTs,对超参数敏感度高,因此设计了更平滑的学习策略以优化GE-ViTs的性能。
完成下面两步后,将自动完成登录并继续当前操作。