小红花·文摘

本研究提出了VerifyBench和VerifyBench-Hard基准测试，以评估大型语言模型中的基于参考的奖励系统。研究表明，当前模型在这些基准上的表现仍有显著提升空间，尤其是小规模模型。