本研究提出VerifierQ方法,将离线Q学习整合到大语言模型的验证器中,解决监督微调问题。结果表明,VerifierQ在数学推理任务中显著提升了效率、准确性和鲁棒性,促进了生成与评估能力的协同。
完成下面两步后,将自动完成登录并继续当前操作。