Efficient Training of Process Reward Models through Active Learning
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种主动学习方法ActPRM,旨在解决大规模语言模型训练中过程奖励模型标注数据获取困难的问题。ActPRM能够有效选择不确定样本,减少50%的标注成本,同时提升模型性能,取得了新的效果。
🎯
关键要点
- 本研究提出了一种主动学习方法ActPRM,旨在解决大规模语言模型训练中过程奖励模型标注数据获取困难的问题。
- ActPRM能够有效选择不确定样本,减少50%的标注成本。
- 研究结果显示,ActPRM在减少标注的同时,取得了相当甚至更好的模型性能。
- ActPRM在ProcessBench和PRMBench上创造了新的最先进的效果。
➡️