分布鲁棒直接偏好优化
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了Wasserstein DPO和Kullback-Leibler DPO两种新算法,以解决大型语言模型与人类偏好对齐中的分布变化问题,实验结果显示其对齐效果显著提升。
🎯
关键要点
- 本研究提出了Wasserstein DPO和Kullback-Leibler DPO两种新算法。
- 这两种算法旨在解决大型语言模型与人类偏好对齐中的分布变化问题。
- 实验结果显示这两种算法显著提高了对齐效果。
- 研究表明这两种算法具有重要的实际应用潜力。
➡️