本研究提出特征级约束偏好优化(FPO)方法,旨在提高大语言模型与人类偏好的对齐效率和训练稳定性。实验结果显示,FPO使赢率提升5.08%,并降低计算成本,为高效对齐提供了新方案。
完成下面两步后,将自动完成登录并继续当前操作。