量子位 ·

o1不是唯一路径！MIT新研究：在测试时训练，模型推理能力最高升至5.8倍

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

MIT的新研究表明，测试时训练（TTT）显著提升了大模型的推理能力，准确率最高可达原来的5.83倍，超越了GPT-4和Claude。TTT通过快速调整模型参数，结合数据增强和集成学习策略，在ARC任务上取得61.9%的SOTA成绩，超过人类平均水平。

🎯

关键要点

MIT的新研究表明，测试时训练（TTT）显著提升了大模型的推理能力，准确率最高可达原来的5.83倍。
TTT通过快速调整模型参数，结合数据增强和集成学习策略，在ARC任务上取得61.9%的SOTA成绩，超过人类平均水平。
TTT不同于传统的先训练后测试模式，在测试阶段对模型进行快速训练以调整参数。
TTT过程包括三个关键阶段：训练数据生成、模型适应范式设计和推理阶段策略。
数据生成通过leave-one-out方法构造新的任务，并进行数据增强，显著扩大TTT训练集规模。
TTT训练使用参数高效的LoRA，为每个测试任务学习独立的adapter参数，提升模型的适应性。
推理阶段应用数据增强和集成学习策略，通过多样化输入和分层投票提升TTT效果。
在ARC任务中，使用TTT后，8B参数的GPT-3准确率从18.3%提升至47.1%。
TTT方法在1B模型上的提升效果更明显，准确率接近调整前的6倍。
TTT与BARC方法结合后，取得61.9%的SOTA成绩，超过人类平均水平。
MindsAI团队在TTT技术上也取得了58%的正确率，获得ARC挑战第一名。

❓

延伸问答

测试时训练（TTT）是什么？

测试时训练（TTT）是在测试阶段对模型进行快速训练以调整参数的方法，旨在提升模型的推理能力。

TTT如何提升模型的推理能力？

TTT通过快速调整模型参数、数据增强和集成学习策略，显著提高模型的推理能力，准确率最高可达原来的5.83倍。

TTT在ARC任务中的表现如何？

在ARC任务中，使用TTT后，8B参数的GPT-3准确率从18.3%提升至47.1%，而1B模型的准确率接近调整前的6倍。

TTT与BARC方法结合后取得了什么成绩？

TTT与BARC方法结合后，在ARC任务中取得了61.9%的SOTA成绩，超过了人类的平均水平。

TTT的训练过程包括哪些关键阶段？

TTT的训练过程包括训练数据生成、模型适应范式设计和推理阶段策略三个关键阶段。

MindsAI团队在TTT技术上取得了什么成就？

MindsAI团队利用TTT技术在ARC挑战中获得了58%的正确率，取得了第一名。

🏷️

继续阅读

Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
牛津大学研究发现：大脑里组胺是决定记性好坏的幕后推手
牛津大学的研究表明，组胺是大脑中重要的神经递质，影响记忆形成和学习效率。提高组胺水平可以增强大脑在休息时的整理能力，延长学习后的记忆回味时间，并提升考试时...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
如何优化AI对话开发效果和测试开发质量？
AI对话产品的优化与测试至关重要。需建立可量化的评估体系，结合技术指标与用户体验指标。优化重点包括响应延迟、意图理解和对话体验。测试应覆盖真实场景，确保系...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...