本研究提出GenARM,通过自回归奖励模型提高大型语言模型与人类偏好的对齐效率。GenARM在测试时进行次标记奖励预测,优化文本生成。实验结果显示其性能优于传统方法,支持多目标对齐,满足用户多样化需求,无需重新训练。
完成下面两步后,将自动完成登录并继续当前操作。