成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
内容提要
李飞飞团队以不到150元的成本,训练出推理模型s1,耗时仅26分钟,性能媲美DeepSeek-R1和OpenAI o1。s1通过蒸馏技术和1000个精选问题数据集,在数学评测中表现优异,已在GitHub开源。
关键要点
-
李飞飞团队以不到150元的成本训练出推理模型s1,耗时仅26分钟。
-
s1模型性能媲美DeepSeek-R1和OpenAI o1,已在GitHub开源。
-
s1模型通过蒸馏技术和1000个精选问题数据集进行训练。
-
训练过程消耗了不到50美元的云计算成本,约合人民币364.61元。
-
s1团队的目标是寻找Test-time Scaling的简单方法。
-
研究团队创建了一个包含1000个问题的数据集s1K,经过严格筛选。
-
s1团队提出了新的顺序Scaling方法和对应的Benchmark。
-
budget forcing方法用于控制思考token数量,提高模型性能。
-
s1-32B在多个推理基准测试中表现优异,尤其在MATH500上取得93.0的成绩。
-
研究发现频繁抑制思考会导致模型进入重复循环,影响推理效果。
-
s1模型在样本效率上表现突出,仅用1000个样本训练就能接近Gemini 2.0 Thinking的成绩。
延伸解读
蒸馏技术的优势
s1模型的成功归功于蒸馏技术,这种方法通过将大型模型的知识转移到较小模型中,显著降低了训练成本和时间。相比传统模型训练,蒸馏不仅提高了效率,还能在资源有限的情况下实现高性能,适合广泛应用于各种推理任务。
样本效率的重要性
s1模型在仅使用1000个样本的情况下,便能接近Gemini 2.0的表现,显示出其卓越的样本效率。这一发现对未来模型训练具有重要启示,强调了高质量数据集的构建和选择在提升模型性能中的关键作用。
预算强制方法的应用
s1团队提出的预算强制方法,通过控制思考token数量,优化了模型的推理过程。这种方法在实际应用中可以有效避免模型进入重复循环,提升推理效率,值得在其他AI模型中进行探索和应用。
延伸问答
s1模型的训练成本和时间是多少?
s1模型的训练成本不到150元,耗时仅26分钟。
s1模型的性能如何?
s1模型的性能媲美DeepSeek-R1和OpenAI o1,在数学评测中表现优异。
s1模型是如何训练的?
s1模型通过蒸馏技术和1000个精选问题数据集进行训练。
什么是蒸馏技术,它在s1模型中有什么作用?
蒸馏技术用于从基础模型中提取知识,以提高s1模型的性能。
s1模型的训练数据集s1K是如何构建的?
s1K数据集由59029个问题经过筛选,最终保留1000个精心挑选的问题。
s1模型在推理基准测试中的表现如何?
s1-32B在MATH500测试中取得93.0的成绩,表现优异。