定向偏好优化中的长度去敏感化

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

直接偏好优化(DPO)是一种有效的方法,通过从成对偏好数据中推导奖励信号,来对齐大型语言模型(LLMs)与人类偏好。使用场论的分析框架发现DPO在减少产生不喜欢数据的概率方面比增加产生首选数据的概率快,为改进DPO提供了理论基础。

原文中文,约300字,阅读约需1分钟。
阅读原文