本文提出了一种基于多模态提示学习的方法,利用预训练的CLIP模型增强图像和文本特征的对齐度,从而提高对抗性攻击的鲁棒性。研究表明,该方法在多个数据集上表现优于现有攻击策略,具有更好的转移性和防御能力。此外,CLIP-Adapter和DCP方法在视觉分类和少样本学习中表现出色。
该论文提出了一种新颖的概念学习框架,通过非监督解释生成器增强视觉分类模型的可解释性和性能。实验验证了该方法的稳健性,能够从潜在表征中提取视觉概念,并与人类可理解的视觉属性对齐,为可信赖的人工智能开发提供支持。
本文介绍了多种基于CLIP模型的增强方法,如VT-CLIP、CPL、MP-FGVC和GeoCLIP,旨在提升视觉分类和定位性能。这些方法通过引入新技术和多模态协同推理,在细粒度分类和短语定位任务中取得了显著进展,展示了CLIP在视觉和语言任务中的广泛应用潜力。
本文提出了一种新的视觉语言模型微调方法CLIP-Adapter,通过增加特征层显著提升视觉分类任务的性能。研究还探讨了参数保留和自适应集成方法,以应对增量学习中的遗忘问题。实验结果显示,该方法在多个基准测试中优于现有技术,尤其在未知任务上表现突出。
该研究利用生成模型和深度学习构建物理系统的仿真模型,提出了新方法ViTree用于细粒度视觉分类,增强了模型的可解释性。通过可视化分析系统EL-VIT,帮助用户理解ViT的工作机制,并提出“深度视觉解释”框架以提高深度学习模型的可解释性。此外,研究介绍了VL-InterpreT工具,展示多模态转换器的注意力和隐藏表示。
本文介绍了一种利用标准频率回归模型预测部分训练模型配置性能的方法,并证明其在视觉分类和语言建模领域有效。同时提出了早期停止方法,加速模型配置优化过程,可无缝集成于强化学习和基于贝叶斯思想的搜索方法中。
本文提出了一种利用标准频率回归模型通过网络架构、超参数和时间序列验证性能数据来预测部分训练模型配置的最终性能的方法,并证明该方法在视觉分类和语言建模领域中是有效的。同时,我们提出了一种早期停止方法,可用于超参数优化和元模建模,加速了模型配置的优化过程,该方法在强化学习-based架构选择算法和基于贝叶斯思想的搜索方法中均可无缝集成。
本文提出了一个基于低维潜在空间与能量模型的先验分布的开放集识别问题的解决方案,包括属性感知信息瓶颈模块、残差属性特征聚合模块和基于不确定性的虚拟异常点合成模块。该方法可用于视觉分类和生成,并在精细化和通用的视觉分类数据集上得到验证。
完成下面两步后,将自动完成登录并继续当前操作。