清华与通院提出的“绝对零”训练法,通过自我博弈提升大模型的推理能力,无需外部数据。该方法在代码环境中训练,模型在数学推理和编程任务上表现优异,超越传统专家标注样本训练的模型。
完成下面两步后,将自动完成登录并继续当前操作。