小红花·文摘

本文介绍了使用多种模型进行偏好对比和对大型语言模型进行调整的重要步骤。研究发现，DPO技术在SFT饱和后仍然提供了改进。使用数据课程学习方案和大型模型进行训练，对比式后训练进一步提高了性能。