定向偏好优化中的长度去敏感化

本研究针对直接偏好优化（DPO）在大语言模型中的过度优化冗长性的问题，提出了一种新的长度去敏感化方法LD-DPO。该方法通过解耦显式长度偏好与隐式偏好，提高了模型在训练中的学习效果，实验结果显示，与传统DPO相比，LD-DPO能够有效减少10-40%的输出长度，同时提升用户体验。

直接偏好优化(DPO)是一种有效的方法，通过从成对偏好数据中推导奖励信号，来对齐大型语言模型(LLMs)与人类偏好。使用场论的分析框架发现DPO在减少产生不喜欢数据的概率方面比增加产生首选数据的概率快，为改进DPO提供了理论基础。