小红花·文摘

本研究提出了综合性基准VL-RewardBench，用于评估视觉-语言生成奖励模型（VL-GenRMs）。通过高质量样本选择与人工验证，发现该基准能够揭示模型在视觉感知任务中的失误，并与其他测评结果高度相关，为改进VL-GenRMs提供了重要见解。