小红花·文摘 - 小红花技术领袖俱乐部

研究可能导致大型语言模型在复杂推理方面表现更佳

研究可能导致大型语言模型在复杂推理方面表现更佳

MIT News - Artificial intelligence ·

本研究提出FineMedLM-o1模型，旨在提升医学大语言模型在复杂临床场景中的推理能力。通过结合高质量合成医学数据和测试时训练（TTT），模型在医学基准测试中平均性能提升23%，TTT进一步提高14%，显示出其有效性。

FineMedLM-o1: Enhancing Medical Reasoning Ability from Supervised Fine-Tuning to Test-Time Training

BriefGPT - AI 论文速递 ·

MIT的新研究表明，测试时训练（TTT）显著提升了大模型的推理能力，准确率最高可达原来的5.83倍，超越了GPT-4和Claude。TTT通过快速调整模型参数，结合数据增强和集成学习策略，在ARC任务上取得61.9%的SOTA成绩，超过人类平均水平。

o1不是唯一路径！MIT新研究：在测试时训练，模型推理能力最高升至5.8倍

量子位 ·

连OpenAI都推不动Scaling Law了？MIT把「测试时训练」系统研究了一遍，发现还有路

连OpenAI都推不动Scaling Law了？MIT把「测试时训练」系统研究了一遍，发现还有路

机器之心 ·

本文提出了一种新型无监督测试时训练（TTT）技术，通过最大化多尺度特征图与离散潜在表示之间的相互信息，整合到标准训练中。实验结果表明，该方法在不同测试时适应基准上表现出竞争力的分类性能。

TTT-KD: 基于基础模型的知识蒸馏进行测试时训练用于 3D 语义分割

BriefGPT - AI 论文速递 ·