小红花·文摘

本研究提出自我引导优化（SSO）算法，解决自动对齐中缺乏人类标注偏好信号的问题。SSO通过迭代训练自动生成高质量偏好信号，显著提升基础模型性能，支持奖励模型优化。