BriefGPT - AI 论文速递 ·

$β$-DPO：动态 $β$ 的直接偏好优化

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本研究提出了多种改进的直接偏好优化（DPO）方法，以增强对噪声数据的鲁棒性和生成文本的质量。结合分布鲁棒优化（DRO）及新方法如Dr. DPO、Mallows-DPO、fDPO等，研究表明这些方法在强化学习与人类反馈的对齐中表现优越，尤其在处理有限偏好对时，显著提升了模型的性能和稳定性。

🎯

❓

直接偏好优化（DPO）是一种调优策略，用于将大型语言模型与人类偏好对齐，无需训练奖励模型或使用强化学习。

通过将分布鲁棒优化（DRO）与DPO相结合，研究提出了多种改进方法，如Dr. DPO和Mallows-DPO，以增强对噪声数据的鲁棒性。

Mallows-DPO利用人类偏好的分散度指数，改进DPO，适用于合成赌徒选择、可控生成和对话等任务，提升了模型的性能和泛化能力。

逐步DPO（sDPO）是一种扩展的DPO方法，通过将可用的偏好数据集分阶段利用，提升模型性能，超越其他大型语言模型。

rDPO方法通过自我批评引导创建合成数据，并利用广义DPO损失函数提高合成数据质量，从而改善大型语言模型的行为对齐。

ODPO通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量，在偏好对数量有限的情况下明显优于传统DPO方法。

🏷️