小红花·文摘

清华与通院提出的“绝对零”训练法，通过自我博弈提升大模型的推理能力，无需外部数据。该方法在代码环境中训练，模型在数学推理和编程任务上表现优异，超越传统专家标注样本训练的模型。