小红花·文摘

研究探讨了如何从偏好数据中获取奖励模型以优化语言模型，使其更符合人类偏好。文章分析了奖励模型的单调转换和多属性对齐问题。通过Bradley-Terry偏好模型，提出了一种自然的转换选择，强调改进表现较差的输出，减轻欠拟合和奖励欺骗。实验表明，这种方法比未转换方法有显著改进。