机器之心 ·

817样本激发7倍推理性能：上交大「少即是多」定律挑战RL Scaling范式

💡 原文中文，约7400字，阅读约需18分钟。

📝

内容提要

上海交通大学的研究表明，LIMO模型仅用817条高质量样本在数学推理上超越了许多大型模型，挑战了“更大即更强”的观念，强调激活模型潜能比依赖海量数据更重要，展示了“少即是多”的有效性。

🎯

❓

LIMO模型仅用817条高质量样本，通过简单的监督微调，显著提升了推理能力，准确率从6.5%提升至57.1%。

LIMO研究挑战了“更大即更强”的观念，强调激活模型潜能比依赖海量数据更重要。

LIMO的成功指明了未来研究应关注如何激活模型的潜在能力，而非单纯依赖大量数据。

LIMO在10个不同基准测试上实现了40.5%的绝对性能提升，显示出其优越的泛化能力。

高质量推理链显著提高模型的推理准确性和泛化能力，性能差距可达15个百分点。

LIMO通过使用少量高质量示例，成功激活了模型的潜在推理能力，验证了“少即是多”的原则。

🏷️

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
Why Zig Isn’t 1.0 (Yet)
Most programming languages follow a familiar trajectory: early experimental r...
Why isn’t the Trump phone made in the USA?
Where's the Trump phone? We're going to keep talking about it every w...