挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

无需标注、抛弃复杂奖励设计

Ubiquant团队提出了一种新方法——熵最小化（EM），仅需一条无标签数据和10步训练，显著提升大语言模型（LLM）性能，超越传统强化学习（RL）方法。EM通过优化模型预测的熵，增强模型自信，适用于数据稀缺场景，降低后训练成本。研究表明，EM在数学推理任务中表现优异，具有广泛应用前景。

大语言模型数学推理无标签数据无监督熵最小化训练