本研究提出了一种能量结果奖励模型(EORM),旨在解决大型语言模型在数学推理中的多步骤逻辑一致性问题。EORM通过使用结果标签简化训练,显著提高了答案的准确性,并在数学基准测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。