量子位 ·

成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

李飞飞团队以不到150元的成本，训练出推理模型s1，耗时仅26分钟，性能媲美DeepSeek-R1和OpenAI o1。s1通过蒸馏技术和1000个精选问题数据集，在数学评测中表现优异，已在GitHub开源。

🎯

🔎

s1模型的成功归功于蒸馏技术，这种方法通过将大型模型的知识转移到较小模型中，显著降低了训练成本和时间。相比传统模型训练，蒸馏不仅提高了效率，还能在资源有限的情况下实现高性能，适合广泛应用于各种推理任务。

s1模型在仅使用1000个样本的情况下，便能接近Gemini 2.0的表现，显示出其卓越的样本效率。这一发现对未来模型训练具有重要启示，强调了高质量数据集的构建和选择在提升模型性能中的关键作用。

s1团队提出的预算强制方法，通过控制思考token数量，优化了模型的推理过程。这种方法在实际应用中可以有效避免模型进入重复循环，提升推理效率，值得在其他AI模型中进行探索和应用。

❓

s1模型的训练成本不到150元，耗时仅26分钟。

s1模型的性能媲美DeepSeek-R1和OpenAI o1，在数学评测中表现优异。

s1模型通过蒸馏技术和1000个精选问题数据集进行训练。

蒸馏技术用于从基础模型中提取知识，以提高s1模型的性能。

s1K数据集由59029个问题经过筛选，最终保留1000个精心挑选的问题。

s1-32B在MATH500测试中取得93.0的成绩，表现优异。

🏷️