量子位 ·

清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

清华与通院提出的“绝对零”训练法，通过自我博弈提升大模型的推理能力，无需外部数据。该方法在代码环境中训练，模型在数学推理和编程任务上表现优异，超越传统专家标注样本训练的模型。

🎯

关键要点

清华与通院提出的“绝对零”训练法通过自我博弈提升大模型推理能力，无需外部数据。
该方法在代码环境中训练，模型在数学推理和编程任务上表现优异。
“绝对零”训练法通过Proposer和Solver两个角色进行自我学习。
推理任务被统一表示为(p,i,o)三元组，分为溯因、演绎和归纳三种基本类型。
初始任务集合作为种子集合生成，若为空则使用预定义的“zero triplet”。
Proposer生成新任务时控制难度和新颖度，以确保任务对Solver有学习价值。
生成的任务经过代码执行器验证，确保语法正确性、安全性和确定性。
Solver根据任务类型解决任务，并利用已有知识辅助求解。
经过多轮迭代，模型最终收敛到均衡点，Proposer和Solver能力匹配。
在编程任务上，“绝对零”训练提升了多个数据集的通过率。
在数学推理任务上，“绝对零”训练的平均准确率显著高于基线。
研究发现“绝对零”的性能提升与模型规模呈正相关，参数越多提升越大。

❓

延伸问答

什么是“绝对零”训练法？

“绝对零”训练法是一种通过自我博弈提升大模型推理能力的方法，无需外部数据。

“绝对零”训练法如何提升模型的推理能力？

通过让模型自我生成和解决推理任务，模型在交替的Proposer和Solver角色中不断学习和提升能力。

在编程任务上，“绝对零”训练法的效果如何？

应用“绝对零”后，多个数据集的编程任务通过率显著提高，例如HumanEval+的通过率从80.5%提高到83.5%。

“绝对零”训练法的任务生成是如何进行的？

Proposer根据已有任务和任务类型生成新的推理任务，并控制任务的难度和新颖度，以确保学习价值。

在数学推理任务上，“绝对零”训练法的表现如何？

在数学推理任务中，“绝对零”的平均准确率达到了39.1%，比基线高出15.2个百分点。

“绝对零”训练法的性能提升与模型规模有什么关系？

研究发现，“绝对零”的性能提升与模型规模呈正相关，参数越多的模型，训练后的性能提升越大。

🏷️

继续阅读

2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
Cloudflare观测数据显示全网机器人流量已经超过真实人类产生的访问
Cloudflare数据显示，机器人流量已超过真实人类流量，达到57.5%。这一增长与AI智能体的快速采用密切相关。尽管机器人流量在HTTP请求中占比更高...