TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization with Estimated Weights
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了TIS-DPO方法,针对大型语言模型中的直接偏好优化(DPO),通过为每个令牌分配基于奖励的权重,提升优化效率。实验结果表明,TIS-DPO在安全性和有用性对齐及摘要任务上显著优于多种基线方法。
🎯
关键要点
- 提出了TIS-DPO方法,针对大型语言模型中的直接偏好优化(DPO)。
- TIS-DPO通过为每个令牌分配基于奖励的权重,提升了优化效率。
- 实验结果表明,TIS-DPO在安全性和有用性对齐及摘要任务上显著优于多种基线方法。
➡️