大型语言模型在生成语言方面有进展,但推理能力不足。OpenR 是一个开源框架,通过集成测试时间计算、强化学习和过程监督来提升推理能力,准确率提高约 10%。它促进社区协作,未来将扩展更多推理任务,推动 AI 自我改进。
OpenR是一个由多所大学联合开发的开源框架,旨在提升大型语言模型的推理能力。它结合了过程奖励模型、强化学习和多种搜索框架,减少了对人工标注的依赖。通过自动生成样本和使用新数据集,OpenR在推理任务中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。