挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化

💡 原文中文,约5700字,阅读约需14分钟。
📝

内容提要

Ubiquant团队提出了一种新方法——熵最小化(EM),仅需一条无标签数据和10步训练,显著提升大语言模型(LLM)性能,超越传统强化学习(RL)方法。EM通过优化模型预测的熵,增强模型自信,适用于数据稀缺场景,降低后训练成本。研究表明,EM在数学推理任务中表现优异,具有广泛应用前景。

🎯

关键要点

  • Ubiquant团队提出了一种新方法——熵最小化(EM),仅需一条无标签数据和10步训练,显著提升大语言模型(LLM)性能。
  • EM方法通过优化模型预测的熵,增强模型自信,适用于数据稀缺场景,降低后训练成本。
  • 当前大语言模型的后训练主流方法是强化学习(RL),但其高昂的数据标注成本和复杂的奖励设计限制了应用。
  • EM方法无需标注数据或外部监督,依赖模型自身预测分布的熵进行优化。
  • EM训练模型将概率质量集中在自信的输出上,降低模型生成序列的熵。
  • 熵最小化的成功依赖于示例的选择,研究者通过方差筛选不稳定的示例进行训练。
  • 实验结果显示,EM方法在多个数学推理任务上显著提高了模型性能,甚至超过了使用大量数据的RL方法。
  • EM与RL在模型置信度的影响方向截然相反,EM增强模型自信,而RL则可能导致模型置信度下降。
  • EM训练可能导致模型“过度自信”,在训练初期性能提升后,持续训练可能反而损害性能。
  • EM适合尚未进行大量RL调优的基础模型,尤其在数据稀缺或资源有限的场景中表现优异。
  • One-shot EM为LLM后训练提供了一种无监督的替代方案,降低了后训练的门槛和成本。
  • 未来研究需关注EM的训练稳定性、泛化能力及与现有技术的融合,探索更强大的混合方法。