小红花·文摘

本研究提出VerifierQ方法，将离线Q学习整合到大语言模型的验证器中，解决监督微调问题。结果表明，VerifierQ在数学推理任务中显著提升了效率、准确性和鲁棒性，促进了生成与评估能力的协同。