研究探讨了如何从偏好数据中获取奖励模型以优化语言模型,使其更符合人类偏好。文章分析了奖励模型的单调转换和多属性对齐问题。通过Bradley-Terry偏好模型,提出了一种自然的转换选择,强调改进表现较差的输出,减轻欠拟合和奖励欺骗。实验表明,这种方法比未转换方法有显著改进。
完成下面两步后,将自动完成登录并继续当前操作。