清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

清华与通院提出的“绝对零”训练法,通过自我博弈提升大模型的推理能力,无需外部数据。该方法在代码环境中训练,模型在数学推理和编程任务上表现优异,超越传统专家标注样本训练的模型。

🎯

关键要点

  • 清华与通院提出的“绝对零”训练法通过自我博弈提升大模型推理能力,无需外部数据。

  • 该方法在代码环境中训练,模型在数学推理和编程任务上表现优异。

  • “绝对零”训练法通过Proposer和Solver两个角色进行自我学习。

  • 推理任务被统一表示为(p,i,o)三元组,分为溯因、演绎和归纳三种基本类型。

  • 初始任务集合作为种子集合生成,若为空则使用预定义的“zero triplet”。

  • Proposer生成新任务时控制难度和新颖度,以确保任务对Solver有学习价值。

  • 生成的任务经过代码执行器验证,确保语法正确性、安全性和确定性。

  • Solver根据任务类型解决任务,并利用已有知识辅助求解。

  • 经过多轮迭代,模型最终收敛到均衡点,Proposer和Solver能力匹配。

  • 在编程任务上,“绝对零”训练提升了多个数据集的通过率。

  • 在数学推理任务上,“绝对零”训练的平均准确率显著高于基线。

  • 研究发现“绝对零”的性能提升与模型规模呈正相关,参数越多提升越大。

延伸问答

什么是“绝对零”训练法?

“绝对零”训练法是一种通过自我博弈提升大模型推理能力的方法,无需外部数据。

“绝对零”训练法如何提升模型的推理能力?

通过让模型自我生成和解决推理任务,模型在交替的Proposer和Solver角色中不断学习和提升能力。

在编程任务上,“绝对零”训练法的效果如何?

应用“绝对零”后,多个数据集的编程任务通过率显著提高,例如HumanEval+的通过率从80.5%提高到83.5%。

“绝对零”训练法的任务生成是如何进行的?

Proposer根据已有任务和任务类型生成新的推理任务,并控制任务的难度和新颖度,以确保学习价值。

在数学推理任务上,“绝对零”训练法的表现如何?

在数学推理任务中,“绝对零”的平均准确率达到了39.1%,比基线高出15.2个百分点。

“绝对零”训练法的性能提升与模型规模有什么关系?

研究发现,“绝对零”的性能提升与模型规模呈正相关,参数越多的模型,训练后的性能提升越大。

➡️

继续阅读