本文提出了一种新方法,解决大语言模型训练中的人类偏好对齐问题。研究者引入“近似克隆鲁棒性”概念,并提出加权最大似然估计算法,以确保在数据不均匀情况下奖励函数的稳定性。
完成下面两步后,将自动完成登录并继续当前操作。