本文提出了在线自主偏好(OSP)语言模型,通过利用偏好强度信息提高模型对齐性能,避免过度拟合。OSP在多个数据集上表现优异,并能在无监督情况下自我改进。研究还介绍了直接偏好优化(DPO)算法,解决了可控性问题,表现稳定。通过混合偏好优化(MPO)方法,结合DPO和RLHF,进一步提升了模型性能。
完成下面两步后,将自动完成登录并继续当前操作。