本文提出了一种测试时反馈方法,用于解决视觉-语言模型输出与任务目标不匹配的问题。通过采用CLIP作为奖励模型,在图像分类、图像文本检索和图像标题生成等任务中进行训练。实验证明,这种方法可以显著提高不同视觉-语言模型的结果。
完成下面两步后,将自动完成登录并继续当前操作。