小红花·文摘

该研究提出了一种新的强化学习方法，利用人类偏好数据训练语言模型，并引入了Token-Level Continuous Reward (TLCR)来解决序列级别和token级别之间的差异。实验证明，TLCR在开放性生成基准测试中相对于先前的奖励方法有一致的性能提升。