TLCR:基于人类反馈的细粒度增强学习的标记级连续奖励
原文中文,约500字,阅读约需2分钟。发表于: 。利用人类偏好数据,Reinforcement Learning from Human Feedback (RLHF) 训练语言模型与人类本质更紧密地对齐。然而,这些人类偏好数据是在序列级别进行标记的,从而在序列级别的偏好标签和从语言模型生成的 token 之间存在不匹配。为解决序列级别和 token 级别之间的差异,我们引入了 Token-Level Continuous Reward...
该研究提出了一种新的强化学习方法,利用人类偏好数据训练语言模型,并引入了Token-Level Continuous Reward (TLCR)来解决序列级别和token级别之间的差异。实验证明,TLCR在开放性生成基准测试中相对于先前的奖励方法有一致的性能提升。