Enhanced Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了一种粗到精的框架,旨在解决数学推理任务中过程奖励模型的不足,通过合并相邻步骤进行粗略推理,并逐步细化以提升推理性能。
🎯
关键要点
- 本文提出了一种粗到精的框架,旨在解决数学推理任务中过程奖励模型的不足。
- 该框架通过合并相邻步骤进行粗略推理,逐步细化以提升推理性能。
- 特别关注过程数据收集的细粒度划分问题。
- 通过合并临近步骤收集粗略推理步骤,逐步减少合并粒度以收集细粒度推理步骤。
- 在多个数学推理数据集上显著提高推理性能。
➡️