小红花·文摘

Apple Machine Learning Research ·

本文提出了TIS-DPO方法，针对大型语言模型中的直接偏好优化（DPO），通过为每个令牌分配基于奖励的权重，提升优化效率。实验结果表明，TIS-DPO在安全性和有用性对齐及摘要任务上显著优于多种基线方法。

BriefGPT - AI 论文速递 ·