该研究提出了一种新的强化学习方法,利用人类偏好数据训练语言模型,并引入了Token-Level Continuous Reward (TLCR)来解决序列级别和token级别之间的差异。实验证明,TLCR在开放性生成基准测试中相对于先前的奖励方法有一致的性能提升。
完成下面两步后,将自动完成登录并继续当前操作。