本文提出了一种名为TIS-DPO的令牌级重要性采样方法,用于直接偏好优化(DPO),旨在提高大语言模型的优化效率。TIS-DPO通过为每个令牌分配基于奖励的重要性权重,优化了数据集的使用。实验结果表明,TIS-DPO在无害性和有用性对齐及摘要任务上显著优于基线方法。
本文提出了TIS-DPO方法,针对大型语言模型中的直接偏好优化(DPO),通过为每个令牌分配基于奖励的权重,提升优化效率。实验结果表明,TIS-DPO在安全性和有用性对齐及摘要任务上显著优于多种基线方法。
完成下面两步后,将自动完成登录并继续当前操作。