小红花·文摘

本文提出了在线自主偏好（OSP）语言模型，通过利用偏好强度信息提高模型对齐性能，避免过度拟合。OSP在多个数据集上表现优异，并能在无监督情况下自我改进。研究还介绍了直接偏好优化（DPO）算法，解决了可控性问题，表现稳定。通过混合偏好优化（MPO）方法，结合DPO和RLHF，进一步提升了模型性能。