BriefGPT - AI 论文速递 ·

自我探索的语言模型：在线对齐的主动偏好引导

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文提出了在线自主偏好（OSP）语言模型，通过利用偏好强度信息提高模型对齐性能，避免过度拟合。OSP在多个数据集上表现优异，并能在无监督情况下自我改进。研究还介绍了直接偏好优化（DPO）算法，解决了可控性问题，表现稳定。通过混合偏好优化（MPO）方法，结合DPO和RLHF，进一步提升了模型性能。

🎯

❓

OSP语言模型通过利用偏好强度信息提高对齐性能，避免过度拟合，并在多个数据集上表现优异，尤其在有限的离线数据和跨领域任务中效率高、稳健性强。

DPO算法解决了无监督语言模型中的可控性问题，表现更好且稳定，简化了模型训练过程。

MPO方法结合了DPO和RLHF的优点，减轻了两者的缺点，通过两阶段训练过程提升了模型的对齐性能。

OSP语言模型能够在无需外部监督的情况下高效自我改进，展示了其自主偏好的能力。

研究分析了RLHF和DPO的稳定性与鲁棒性，并提出了MPO方法，推动了对齐技术的发展。

自我奖励语言模型的迭代DPO训练提升了模型的指示遵循能力和高质量奖励的能力，使得最终模型在多个评估中表现优于现有系统。

🏷️