小红花·文摘

本文提出了一种名为“rDPO”的方法，通过自我批评生成合成数据，并利用DPO损失函数优化大型语言模型（LLM）。研究表明，rDPO在模型对齐方面优于传统DPO，尤其在偏好数量有限的情况下。此外，提出了逐步DPO（sDPO）和三重偏好优化（TPO）方法，以提高模型性能并减少训练数据噪声的影响。