小红花·文摘

本研究提出了一种新的奖励分解方法，解决了基于人类反馈的强化学习中奖励模型泛化能力不足的问题。该方法将奖励分为与提示无关和与提示相关的两个部分，显著提升了模型的对齐性能和泛化能力。