本研究提出了综合性基准VL-RewardBench,用于评估视觉-语言生成奖励模型(VL-GenRMs)。通过高质量样本选择与人工验证,发现该基准能够揭示模型在视觉感知任务中的失误,并与其他测评结果高度相关,为改进VL-GenRMs提供了重要见解。
完成下面两步后,将自动完成登录并继续当前操作。