小红花·文摘

该研究探讨了大型语言模型的对齐问题，提出了BoNBoN对齐方法和正则化最佳-n策略，以提高模型选择性并减少奖励欺骗。通过训练贝叶斯奖励模型，研究有效缓解了奖励过度优化问题，并提出了基于变分贝叶斯的新推断方法，优化了高方差问题，展示了最佳-n策略与KL约束的等价性。