清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力
内容提要
清华与通院提出的“绝对零”训练法,通过自我博弈提升大模型的推理能力,无需外部数据。该方法在代码环境中训练,模型在数学推理和编程任务上表现优异,超越传统专家标注样本训练的模型。
关键要点
-
清华与通院提出的“绝对零”训练法通过自我博弈提升大模型推理能力,无需外部数据。
-
该方法在代码环境中训练,模型在数学推理和编程任务上表现优异。
-
“绝对零”训练法通过Proposer和Solver两个角色进行自我学习。
-
推理任务被统一表示为(p,i,o)三元组,分为溯因、演绎和归纳三种基本类型。
-
初始任务集合作为种子集合生成,若为空则使用预定义的“zero triplet”。
-
Proposer生成新任务时控制难度和新颖度,以确保任务对Solver有学习价值。
-
生成的任务经过代码执行器验证,确保语法正确性、安全性和确定性。
-
Solver根据任务类型解决任务,并利用已有知识辅助求解。
-
经过多轮迭代,模型最终收敛到均衡点,Proposer和Solver能力匹配。
-
在编程任务上,“绝对零”训练提升了多个数据集的通过率。
-
在数学推理任务上,“绝对零”训练的平均准确率显著高于基线。
-
研究发现“绝对零”的性能提升与模型规模呈正相关,参数越多提升越大。
延伸问答
什么是“绝对零”训练法?
“绝对零”训练法是一种通过自我博弈提升大模型推理能力的方法,无需外部数据。
“绝对零”训练法如何提升模型的推理能力?
通过让模型自我生成和解决推理任务,模型在交替的Proposer和Solver角色中不断学习和提升能力。
在编程任务上,“绝对零”训练法的效果如何?
应用“绝对零”后,多个数据集的编程任务通过率显著提高,例如HumanEval+的通过率从80.5%提高到83.5%。
“绝对零”训练法的任务生成是如何进行的?
Proposer根据已有任务和任务类型生成新的推理任务,并控制任务的难度和新颖度,以确保学习价值。
在数学推理任务上,“绝对零”训练法的表现如何?
在数学推理任务中,“绝对零”的平均准确率达到了39.1%,比基线高出15.2个百分点。
“绝对零”训练法的性能提升与模型规模有什么关系?
研究发现,“绝对零”的性能提升与模型规模呈正相关,参数越多的模型,训练后的性能提升越大。