本研究提出了RL$^V$,有效解决了强化学习中价值函数利用不足的问题。通过同时训练大语言模型作为推理器和生成验证器,显著提升了MATH任务的准确率和计算效率。
完成下面两步后,将自动完成登录并继续当前操作。