挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化 无需标注、抛弃复杂奖励设计 Ubiquant团队提出了一种新方法——熵最小化(EM),仅需一条无标签数据和10步训练,显著提升大语言模型(LLM)性能,超越传统强化学习(RL)方法。EM通过优化模型预测的熵,增强模型自信,适用于数据稀缺场景,降低后训练成本。研究表明,EM在数学推理任务中表现优异,具有广泛应用前景。 大语言模型 数学推理 无标签数据 无监督 熵最小化 训练