小红花·文摘

本文介绍了一种在大型语言模型中应用直接偏好优化的新方法，称为令牌级重要性采样的DPO目标（TIS-DPO）。该方法通过为每个令牌分配基于奖励的权重，提高了优化效率。实验结果表明，TIS-DPO在安全性、实用性对齐和摘要任务上优于多种基线方法。