小红花·文摘

研究探讨了奖励最大化与分布匹配的关系，提出了DPO算法以提高无监督语言模型的可控性。DPO在稳定性和性能上优于传统方法，并结合噪声对比评估（NCE）提升模型对齐效果。此外，研究还提出了因果偏好优化（CPO）和软偏好优化（SPO）方法，以优化大型语言模型的生成质量并解决训练数据中的噪声问题。