本研究提出了一种新的奖励分解方法,解决了基于人类反馈的强化学习中奖励模型泛化能力不足的问题。该方法将奖励分为与提示无关和与提示相关的两个部分,显著提升了模型的对齐性能和泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。