本研究解决了数据格式不兼容导致的模型训练差异问题。通过在HelpSteer2数据集中添加偏好注释,首次公平比较了Bradley-Terry和回归模型,并提出结合两者的新方法。实验结果显示,该方法调优的模型在多个奖励模型中表现优异,具有显著效果和应用潜力。
大型语言模型(LLMs)可以通过人类反馈的强化学习(RLHF)提高,但微调成本高。研究发现,全序列上训练的奖励模型与评分部分序列不兼容。建议在部分序列上训练Bradley-Terry奖励模型,并从隐含的标记级策略中自回归采样。该方法优于之前的RGTG方法,且无需大规模LLM微调。
完成下面两步后,将自动完成登录并继续当前操作。