小红花·文摘

本研究提出了一种新的训练范式Pre-DPO，旨在提高直接偏好优化（DPO）的数据利用效率。通过使用指导参考模型，Pre-DPO显著提升了DPO和简单偏好优化（SimPO）的性能，无需外部模型或额外数据。

BriefGPT - AI 论文速递 ·

本研究提出了一种自适应样本选择方法LLKD，旨在提高大语言模型在自然语言处理中的实用性，通过生成伪标签来训练小模型，从而提升数据利用效率和模型性能。

BriefGPT - AI 论文速递 ·