小红花·文摘

DEV Community ·

本研究提出了ThinkPRM，一种高效的数据过程奖励模型，通过生成验证推理链显著降低了对监督标签的需求，并在多个基准测试中超越了传统模型。

BriefGPT - AI 论文速递 ·

本研究探讨了过程奖励模型(PRM)在强化微调中的奖励黑客问题，提出了PURE方法，通过最小化信用分配来减轻奖励黑客现象。实验证明，该方法的推理表现与传统方法相当，并降低了训练失败的风险。

BriefGPT - AI 论文速递 ·

本研究提出了一种主动学习方法ActPRM，旨在解决大规模语言模型训练中过程奖励模型标注数据获取困难的问题。ActPRM能够有效选择不确定样本，减少50%的标注成本，同时提升模型性能，取得了新的效果。

BriefGPT - AI 论文速递 ·

这篇文章介绍了Arstar Math，展示了小型语言模型（参数不超过70亿）如何通过自我演化的深度思维掌握数学推理。该方法结合蒙特卡洛树搜索和过程奖励模型，解决了训练中的数据不足问题。通过生成高质量的数学问题和逐步验证推理轨迹，模型在数学基准测试中的表现显著提升，最终达到了与大型模型相媲美的效果。

Josherich的博客 ·

本研究探讨了过程奖励模型（PRMs）在应对分布外挑战时的问题，提出了一种增强检索过程奖励模型（RetrievalPRM），通过两阶段检索机制提高了模型的通用性和推理一致性，实验结果表明其在多个真实数据集上表现优异。

BriefGPT - AI 论文速递 ·

本研究提出了一种自适应步骤方法，解决了过程奖励模型训练中固定规则划分推理步骤的问题，从而提升了数学推理和代码生成任务的效果，成本降低超过30%。

BriefGPT - AI 论文速递 ·

本文提出了一种粗到精的框架，旨在解决数学推理任务中过程奖励模型的不足，通过合并相邻步骤进行粗略推理，并逐步细化以提升推理性能。

BriefGPT - AI 论文速递 ·

$面向有效的数学推理过程监督$

Blog on Qwen ·

本研究提出了过程奖励模型（PRM），解决了单元测试反馈强化学习在代码生成中的效率问题，通过逐行反馈模拟人类优化，显著提升了大型语言模型在长时序任务中的表现。

BriefGPT - AI 论文速递 ·

机器之心 ·

研究通过过程奖励模型提升大型语言模型推理效果，提出新颖的奖励设计促进强化学习和在线训练。结果显示，过程优势验证器提高了模型准确性和效率，相较传统模型有显著提升。

BriefGPT - AI 论文速递 ·

本文讨论了OpenAI的Q-star概念，使用思维树推理和过程奖励模型优化语言模型。Q-star结合强化学习和前瞻规划技术，评分每个推理步骤并生成多样化的推理路径。文章还提到了过程奖励模型的应用和离线RL的使用。最后，探讨了使用人工智能代替人类评分和使用树结构推理的可能性。

极道 ·