基于梯度约束的锐度感知提示学习用于视觉语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。该研究纸针对一个新颖的权衡问题,即在视觉语言模型(VLM)的可推广提示学习中,提高对未知类别的性能同时保持对已知类别的性能。通过分析当前方法和广泛使用的锐度感知最小化(SAM)的损失地形,我们得出结论:权衡性能与损失值和损失锐度相关,而两者都是必不可少的。然而,我们发现现有方法的优化梯度在整个优化过程中不能始终保持与损失值和损失锐度的高一致性。因此,我们提出了一种基于 SAM...
该研究提出了一种名为GCSCoOp的新方法,旨在提高视觉语言模型的可推广性能,同时保持对已知类别的性能。该方法通过动态约束优化梯度,同时实现了两个优化目标。实验证实了该方法在权衡问题上的有效性。