本研究提出了一种新的训练范式Pre-DPO,旨在提高直接偏好优化(DPO)的数据利用效率。通过使用指导参考模型,Pre-DPO显著提升了DPO和简单偏好优化(SimPO)的性能,无需外部模型或额外数据。
本研究提出了一种自适应样本选择方法LLKD,旨在提高大语言模型在自然语言处理中的实用性,通过生成伪标签来训练小模型,从而提升数据利用效率和模型性能。
完成下面两步后,将自动完成登录并继续当前操作。