小红花·文摘

本文提出了一种测试时反馈方法，用于解决视觉-语言模型输出与任务目标不匹配的问题。通过采用CLIP作为奖励模型，在图像分类、图像文本检索和图像标题生成等任务中进行训练。实验证明，这种方法可以显著提高不同视觉-语言模型的结果。