小红花·文摘

本研究提出了一种能量结果奖励模型（EORM），旨在解决大型语言模型在数学推理中的多步骤逻辑一致性问题。EORM通过使用结果标签简化训练，显著提高了答案的准确性，并在数学基准测试中表现优异。