小红花·文摘

研究通过过程奖励模型提升大型语言模型推理效果，提出新颖的奖励设计促进强化学习和在线训练。结果显示，过程优势验证器提高了模型准确性和效率，相较传统模型有显著提升。