小红花·文摘

本研究提出特征级约束偏好优化（FPO）方法，旨在提高大语言模型与人类偏好的对齐效率和训练稳定性。实验结果显示，FPO使赢率提升5.08%，并降低计算成本，为高效对齐提供了新方案。