LLM 对齐的贝叶斯奖励模型
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究人员使用贝叶斯奖励模型来缓解奖励过度优化的问题。通过训练贝叶斯奖励模型,在离训练数据分布较远的位置发出更高的不确定性信号,减少错误的奖励选择。使用 Laplace-LoRA 训练的贝叶斯奖励模型成功缓解了最佳 n 采样中的奖励过度优化问题。
🎯
关键要点
- 研究人员使用贝叶斯奖励模型来缓解奖励过度优化的问题。
- 贝叶斯奖励模型在离训练数据分布较远的位置发出更高的不确定性信号。
- 该模型减少了错误的奖励选择。
- 使用 Laplace-LoRA 训练的贝叶斯奖励模型成功缓解了最佳 n 采样中的奖励过度优化问题。
- 奖励模型通常在人类偏好数据上进行微调,以确保大型语言模型的回复有用且无毒。
➡️