纠正 KL 正则化神话：通过卡方偏好优化进行直接对齐而不过多参数化

语言模型对齐方法，强化学习，过拟合，离线对齐算法，样本效率。

离线偏好优化通过微调离线数据的大型模型，证明了其有效性。提出了广义偏好优化（GPO），一种由凸函数参数化的离线损失函数家族。GPO实现了对偏好优化的统一视角，揭示了离线算法如何通过定义损失的凸函数来实现正则化。研究结果向对齐实践者呈现了新的算法工具和实证洞见。

正则