小红花·文摘

本研究提出了一种通过奖励模型对视觉语言模型（VLM）进行过程监督的方法，显著提升了其在复杂图形用户界面交互中的表现，静态环境下一步行动准确率提高3.4%，动态环境任务成功率提高约33%。

在推理时使用过程奖励指导 VLM 代理进行 GUI 导航

BriefGPT - AI 论文速递 ·

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

机器之心 ·

文章介绍了OpenAI o1模型在物理、化学、生物学等领域的强大能力。通过大规模强化学习和“思维链”策略，o1提升了推理能力，能识别和纠正错误，并将复杂问题分解为简单步骤。文章还提到结果监督和过程监督的奖励模型，强调过程监督在解决复杂问题中的优势。复旦大学的R3方法通过逆向推理学习，增强了大型语言模型的推理能力。

一文通透OpenAI o1：从CoT、Quiet-STaR、Self-Correct、Self-play RL、MCTS等技术细节到工程复现

结构之法算法之道 ·

Ilya Sutskever 在 OpenAI o1 项目中的角色引起了关注。他合著的一篇题为《逐步验证》的论文探讨了提高大型语言模型多步推理能力的方法。研究发现，过程监督比结果监督更有效，并使用人类反馈数据来训练模型。o1 项目的其他贡献者包括 Jason Wei、Shengjia Zhao 和 Ren Hongyu。OpenAI o1 旨在从记忆答案转向记忆推理。

o1基石论文火爆传阅，Ilya仍是关键先生！核心项目清北校友闪光

量子位 ·

OpenAI团队的研究论文《一步一步验证》探讨了训练可靠的大型语言模型的奖励模型的关键问题，通过过程监督提供更精确的反馈，鼓励模型遵循人类认可的思维链。论文提供了一个大规模过程监督数据集（PRM800K），展示了过程监督在数学推理等领域的应用潜力。研究人员认为过程监督有助于提高模型的可解释性、安全性和对齐性。

一步一步验证：OpenAI o1 的创建过程

DEV Community ·

本文研究了监督方法对语言模型训练的影响，发现过程监督显著提高了数学问题的准确性，主动学习进一步增强了效果。提出了Math-Shepherd和MathPrompter等技术，利用自动生成的监督数据和零-shot提示技术，提升了模型在复杂数学问题上的表现。研究表明，自动过程监督对语言模型的未来发展具有重要潜力。