BriefGPT - AI 论文速递 ·

纠正 KL 正则化神话：通过卡方偏好优化进行直接对齐而不过多参数化

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文探讨了大型语言模型（LLMs）与人类偏好的对齐问题，提出了广义偏好优化（GPO）和混合偏好优化（HPO）等多种优化方法，以提升模型的鲁棒性和生成文本的质量。同时，引入了新的损失函数和降采样方法，验证了其在处理噪声和优化性能方面的有效性。

🎯

❓

广义偏好优化（GPO）是一种新的离线损失函数，旨在统一多种偏好优化算法，并通过凸函数参数化实现对偏好优化的统一视角。

通过人类意见反馈的强化学习和多样化的分歧约束，可以更高效地使大型语言模型与人类偏好相一致，从而改善对齐性能。

SamPO是一种有效的降采样方法，旨在解决直接偏好优化中的过度优化问题，并通过去偏的奖励实现模型性能的提升。

混合偏好优化（HPO）结合了直接优化偏好和强化学习的方法，有效泛化用户偏好和辅助设计目标，同时保持对齐性能。

统计拒绝采样优化（RSO）能够更准确地从目标最优策略中获取偏好数据，并在多个任务上表现优于SLiC和DPO。

Trust Region DPO方法通过在训练过程中更新参考策略，改善模型质量，并在多个参数上展示了相对于传统DPO的优越性能。

🏷️