o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

MIT的新研究表明,测试时训练(TTT)显著提升了大模型的推理能力,准确率最高可达原来的5.83倍,超越了GPT-4和Claude。TTT通过快速调整模型参数,结合数据增强和集成学习策略,在ARC任务上取得61.9%的SOTA成绩,超过人类平均水平。

🎯

关键要点

  • MIT的新研究表明,测试时训练(TTT)显著提升了大模型的推理能力,准确率最高可达原来的5.83倍。
  • TTT通过快速调整模型参数,结合数据增强和集成学习策略,在ARC任务上取得61.9%的SOTA成绩,超过人类平均水平。
  • TTT不同于传统的先训练后测试模式,在测试阶段对模型进行快速训练以调整参数。
  • TTT过程包括三个关键阶段:训练数据生成、模型适应范式设计和推理阶段策略。
  • 数据生成通过leave-one-out方法构造新的任务,并进行数据增强,显著扩大TTT训练集规模。
  • TTT训练使用参数高效的LoRA,为每个测试任务学习独立的adapter参数,提升模型的适应性。
  • 推理阶段应用数据增强和集成学习策略,通过多样化输入和分层投票提升TTT效果。
  • 在ARC任务中,使用TTT后,8B参数的GPT-3准确率从18.3%提升至47.1%。
  • TTT方法在1B模型上的提升效果更明显,准确率接近调整前的6倍。
  • TTT与BARC方法结合后,取得61.9%的SOTA成绩,超过人类平均水平。
  • MindsAI团队在TTT技术上也取得了58%的正确率,获得ARC挑战第一名。

延伸问答

测试时训练(TTT)是什么?

测试时训练(TTT)是在测试阶段对模型进行快速训练以调整参数的方法,旨在提升模型的推理能力。

TTT如何提升模型的推理能力?

TTT通过快速调整模型参数、数据增强和集成学习策略,显著提高模型的推理能力,准确率最高可达原来的5.83倍。

TTT在ARC任务中的表现如何?

在ARC任务中,使用TTT后,8B参数的GPT-3准确率从18.3%提升至47.1%,而1B模型的准确率接近调整前的6倍。

TTT与BARC方法结合后取得了什么成绩?

TTT与BARC方法结合后,在ARC任务中取得了61.9%的SOTA成绩,超过了人类的平均水平。

TTT的训练过程包括哪些关键阶段?

TTT的训练过程包括训练数据生成、模型适应范式设计和推理阶段策略三个关键阶段。

MindsAI团队在TTT技术上取得了什么成就?

MindsAI团队利用TTT技术在ARC挑战中获得了58%的正确率,取得了第一名。

➡️

继续阅读