小红花·文摘

本文提出了一种新颖的偏好优化方法α-DPO，旨在提高大型语言模型与人类偏好的对齐效率和稳定性。通过引入动态奖励边界，α-DPO克服了传统方法的局限性，实验证明其在多种模型设置中表现优于现有技术，展现出显著潜力。