小红花·文摘

研究人员使用贝叶斯奖励模型来缓解奖励过度优化的问题。通过训练贝叶斯奖励模型，在离训练数据分布较远的位置发出更高的不确定性信号，减少错误的奖励选择。使用 Laplace-LoRA 训练的贝叶斯奖励模型成功缓解了最佳 n 采样中的奖励过度优化问题。