过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

机器之心 ·

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

清华大学与上海AI实验室提出的生成式过程奖励模型GenPRM，通过结合思维链推理与代码验证，显著提升了大语言模型的推理能力。GenPRM在复杂推理任务中表现优异，仅用23K样本便超越了GPT-4o，展现出强大的过程监督能力，为大语言模型的可解释性提供了新思路。

🎯

关键要点

清华大学与上海AI实验室提出生成式过程奖励模型GenPRM，提升大语言模型推理能力。
GenPRM在复杂推理任务中表现优异，仅用23K样本超越GPT-4o。
传统过程奖励模型受限于标量评分机制，难以捕捉深层逻辑错误。
GenPRM结合思维链推理与代码验证，提供透明的步骤评估。
通过并行采样N条推理路径，GenPRM提升评估精度。
GenPRM仅使用23K训练样本，源于独特的数据合成方法。
相对进步估计（RPE）提升标签准确性，避免硬估计误判。
GenPRM在ProcessBench基准测试中表现优异，证明测试时扩展能放大模型能力。
GenPRM可作为验证器和批评者，提升策略模型的回答准确率。
研究者已开源代码、模型及训练数据集，为大语言模型可解释性提供新思路。

❓

延伸问答

GenPRM模型的主要创新点是什么？

GenPRM模型结合了思维链推理与代码验证，提升了大语言模型的推理能力，并引入了测试时扩展机制。

GenPRM如何在复杂推理任务中超越GPT-4o？

GenPRM仅使用23K样本，通过测试时扩展和并行采样多条推理路径，显著提升了评估精度，从而超越了GPT-4o。

传统过程奖励模型的局限性是什么？

传统过程奖励模型受限于标量评分机制，难以捕捉深层逻辑错误，且无法通过增加计算资源提升判断精度。

GenPRM是如何提高标签准确性的？

GenPRM通过相对进步估计（RPE）改进硬估计，评估每步质量，避免了传统方法的误判。

GenPRM在数据使用上有什么优势？

GenPRM仅使用23K训练样本，远少于其他模型，得益于独特的数据合成方法和代码验证。

GenPRM如何作为验证器和批评者提升模型性能？

GenPRM作为验证器筛选答案，同时作为批评者提供步骤级别的反馈，显著提升策略模型的回答准确率。

🏷️

继续阅读

2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
垃圾桶里捡零件，弹幕里接需求，B 站有群人在用 AI 野生造产品
胡彦斌利用AI编程开发了粉丝社区App「彦火」，呼吁粉丝参与共创。广西学生JXW从垃圾桶捡镜子制作智能眼镜，获得关注。听障者李朋程开发语训App，帮助听障...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...