成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

李飞飞团队以不到150元的成本,训练出推理模型s1,耗时仅26分钟,性能媲美DeepSeek-R1和OpenAI o1。s1通过蒸馏技术和1000个精选问题数据集,在数学评测中表现优异,已在GitHub开源。

🎯

关键要点

  • 李飞飞团队以不到150元的成本训练出推理模型s1,耗时仅26分钟。
  • s1模型性能媲美DeepSeek-R1和OpenAI o1,已在GitHub开源。
  • s1模型通过蒸馏技术和1000个精选问题数据集进行训练。
  • 训练过程消耗了不到50美元的云计算成本,约合人民币364.61元。
  • s1团队的目标是寻找Test-time Scaling的简单方法。
  • 研究团队创建了一个包含1000个问题的数据集s1K,经过严格筛选。
  • s1团队提出了新的顺序Scaling方法和对应的Benchmark。
  • budget forcing方法用于控制思考token数量,提高模型性能。
  • s1-32B在多个推理基准测试中表现优异,尤其在MATH500上取得93.0的成绩。
  • 研究发现频繁抑制思考会导致模型进入重复循环,影响推理效果。
  • s1模型在样本效率上表现突出,仅用1000个样本训练就能接近Gemini 2.0 Thinking的成绩。

延伸问答

s1模型的训练成本和时间是多少?

s1模型的训练成本不到150元,耗时仅26分钟。

s1模型的性能如何?

s1模型的性能媲美DeepSeek-R1和OpenAI o1,在数学评测中表现优异。

s1模型是如何训练的?

s1模型通过蒸馏技术和1000个精选问题数据集进行训练。

什么是蒸馏技术,它在s1模型中有什么作用?

蒸馏技术用于从基础模型中提取知识,以提高s1模型的性能。

s1模型的训练数据集s1K是如何构建的?

s1K数据集由59029个问题经过筛选,最终保留1000个精心挑选的问题。

s1模型在推理基准测试中的表现如何?

s1-32B在MATH500测试中取得93.0的成绩,表现优异。

➡️

继续阅读