成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
💡
原文中文,约3700字,阅读约需9分钟。
📝
内容提要
李飞飞团队以不到150元的成本,训练出推理模型s1,耗时仅26分钟,性能媲美DeepSeek-R1和OpenAI o1。s1通过蒸馏技术和1000个精选问题数据集,在数学评测中表现优异,已在GitHub开源。
🎯
关键要点
- 李飞飞团队以不到150元的成本训练出推理模型s1,耗时仅26分钟。
- s1模型性能媲美DeepSeek-R1和OpenAI o1,已在GitHub开源。
- s1模型通过蒸馏技术和1000个精选问题数据集进行训练。
- 训练过程消耗了不到50美元的云计算成本,约合人民币364.61元。
- s1团队的目标是寻找Test-time Scaling的简单方法。
- 研究团队创建了一个包含1000个问题的数据集s1K,经过严格筛选。
- s1团队提出了新的顺序Scaling方法和对应的Benchmark。
- budget forcing方法用于控制思考token数量,提高模型性能。
- s1-32B在多个推理基准测试中表现优异,尤其在MATH500上取得93.0的成绩。
- 研究发现频繁抑制思考会导致模型进入重复循环,影响推理效果。
- s1模型在样本效率上表现突出,仅用1000个样本训练就能接近Gemini 2.0 Thinking的成绩。
❓
延伸问答
s1模型的训练成本和时间是多少?
s1模型的训练成本不到150元,耗时仅26分钟。
s1模型的性能如何?
s1模型的性能媲美DeepSeek-R1和OpenAI o1,在数学评测中表现优异。
s1模型是如何训练的?
s1模型通过蒸馏技术和1000个精选问题数据集进行训练。
什么是蒸馏技术,它在s1模型中有什么作用?
蒸馏技术用于从基础模型中提取知识,以提高s1模型的性能。
s1模型的训练数据集s1K是如何构建的?
s1K数据集由59029个问题经过筛选,最终保留1000个精心挑选的问题。
s1模型在推理基准测试中的表现如何?
s1-32B在MATH500测试中取得93.0的成绩,表现优异。
➡️