无参考模型的长度控制边际偏好优化

📝

内容提要

本研究针对传统的直接偏好优化(DPO)算法在长度偏倚、内存效率和概率下降方面的限制,提出了一种新的长度控制边际偏好优化(LMPO)方法。LMPO通过引入统一的参考模型和平均对数概率优化策略,改善了训练和推理阶段之间的一致性,实验证明其在控制响应长度和减少概率降解方面优于现有技术。

➡️

继续阅读