AnoVL:面向统一零样本异常定位的视觉语言模型适应
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种测试时反馈方法,用于解决视觉-语言模型输出与任务目标不匹配的问题。通过采用CLIP作为奖励模型,在图像分类、图像文本检索和图像标题生成等任务中进行训练。实验证明,这种方法可以显著提高不同视觉-语言模型的结果。
🎯
关键要点
- 提出了一种测试时反馈方法,解决视觉-语言模型输出与任务目标不匹配的问题。
- 该方法旨在避免模型过拟合于不正确的输出分布。
- 采用CLIP作为奖励模型,应用于图像分类、图像文本检索和图像标题生成等任务。
- 通过强化学习,目标是最大化CLIP奖励进行单一测试样本的训练。
- 广泛实验表明,该方法显著提高了不同视觉-语言模型的结果。
➡️