麻省理工学院的研究人员提出了一种“测试时训练”方法,通过临时更新大型语言模型(LLMs)的参数,显著提高其在复杂推理任务中的准确性,最多可提升六倍。这种方法结合上下文学习,使模型在医疗诊断等需要逻辑推理的应用中更具灵活性。研究表明,更新模型参数能有效提升性能,未来目标是开发能够自动选择最佳学习策略的LLM。
本研究提出FineMedLM-o1模型,旨在提升医学大语言模型在复杂临床场景中的推理能力。通过结合高质量合成医学数据和测试时训练(TTT),模型在医学基准测试中平均性能提升23%,TTT进一步提高14%,显示出其有效性。
MIT的新研究表明,测试时训练(TTT)显著提升了大模型的推理能力,准确率最高可达原来的5.83倍,超越了GPT-4和Claude。TTT通过快速调整模型参数,结合数据增强和集成学习策略,在ARC任务上取得61.9%的SOTA成绩,超过人类平均水平。
OpenAI的下一代模型质量提升受到高质量数据减少的限制,Scaling Law可能不再适用。研究者提出了测试时训练(TTT)方法,显著提升了模型在抽象推理任务中的表现,挑战了传统依赖符号逻辑的假设。
本文提出了一种新型无监督测试时训练(TTT)技术,通过最大化多尺度特征图与离散潜在表示之间的相互信息,整合到标准训练中。实验结果表明,该方法在不同测试时适应基准上表现出竞争力的分类性能。
完成下面两步后,将自动完成登录并继续当前操作。