小红花·文摘

分布偏好奖励模型（DPRM）通过结合整体和特定奖励，提升大型语言模型与人类偏好的对齐。ALaRM框架增强模型一致性，解决对齐方法的局限性。研究提出贝叶斯奖励模型以缓解奖励过度优化问题，并通过新方法ELLm利用背景知识改善智能体行为。实验表明，这些方法在生成质量和推理能力上表现优异。