o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

MIT的新研究表明,测试时训练(TTT)显著提升了大模型的推理能力,准确率最高可达原来的5.83倍,超越了GPT-4和Claude。TTT通过快速调整模型参数,结合数据增强和集成学习策略,在ARC任务上取得61.9%的SOTA成绩,超过人类平均水平。

🎯

关键要点

  • MIT的新研究表明,测试时训练(TTT)显著提升了大模型的推理能力,准确率最高可达原来的5.83倍。
  • TTT通过快速调整模型参数,结合数据增强和集成学习策略,在ARC任务上取得61.9%的SOTA成绩,超过人类平均水平。
  • TTT不同于传统的先训练后测试模式,在测试阶段对模型进行快速训练以调整参数。
  • TTT过程包括三个关键阶段:训练数据生成、模型适应范式设计和推理阶段策略。
  • 数据生成通过leave-one-out方法构造新的任务,并进行数据增强,显著扩大TTT训练集规模。
  • TTT训练使用参数高效的LoRA,为每个测试任务学习独立的adapter参数,提升模型的适应性。
  • 推理阶段应用数据增强和集成学习策略,通过多样化输入和分层投票提升TTT效果。
  • 在ARC任务中,使用TTT后,8B参数的GPT-3准确率从18.3%提升至47.1%。
  • TTT方法在1B模型上的提升效果更明显,准确率接近调整前的6倍。
  • TTT与BARC方法结合后,取得61.9%的SOTA成绩,超过人类平均水平。
  • MindsAI团队在TTT技术上也取得了58%的正确率,获得ARC挑战第一名。
➡️

继续阅读