AnoVL:面向统一零样本异常定位的视觉语言模型适应

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种测试时反馈方法,用于解决视觉-语言模型输出与任务目标不匹配的问题。通过采用CLIP作为奖励模型,在图像分类、图像文本检索和图像标题生成等任务中进行训练。实验证明,这种方法可以显著提高不同视觉-语言模型的结果。

🎯

关键要点

  • 提出了一种测试时反馈方法,解决视觉-语言模型输出与任务目标不匹配的问题。
  • 该方法旨在避免模型过拟合于不正确的输出分布。
  • 采用CLIP作为奖励模型,应用于图像分类、图像文本检索和图像标题生成等任务。
  • 通过强化学习,目标是最大化CLIP奖励进行单一测试样本的训练。
  • 广泛实验表明,该方法显著提高了不同视觉-语言模型的结果。
➡️

继续阅读