本研究提出了VerifyBench和VerifyBench-Hard基准测试,以评估大型语言模型中的基于参考的奖励系统。研究表明,当前模型在这些基准上的表现仍有显著提升空间,尤其是小规模模型。
完成下面两步后,将自动完成登录并继续当前操作。