450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了

450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了

💡 原文中文,约3000字,阅读约需7分钟。
📝

内容提要

加州大学伯克利分校的NovaSky团队发布了Sky-T1-32B-Preview推理模型,训练成本低于450美元,展现了经济高效的高级推理能力。该模型开源,包含数据、代码和模型权重,便于社区复制和改进。在多个基准测试中,Sky-T1的表现优于早期版本,显示出推理模型技术的快速进步。

🎯

关键要点

  • 加州大学伯克利分校的NovaSky团队发布了Sky-T1-32B-Preview推理模型,训练成本低于450美元。
  • Sky-T1-32B-Preview是第一个真正开源的推理模型,包含数据、代码和模型权重。
  • 该模型在多个基准测试中表现优于早期版本,显示出推理模型技术的快速进步。
  • 训练数据使用了QwQ-32B-Preview模型,并进行了数据混合和拒绝采样以提高数据质量。
  • 团队使用Qwen2.5-32B-Instruct模型进行微调,训练过程耗时19小时,使用了DeepSpeed Zero-3 offload。
  • Sky-T1在MATH500和LiveCodeBench上的表现优于o1的早期版本,但不如o1 GA版本。
  • 模型大小和数据混合对推理性能有显著影响,较小模型的有效性受到限制。
  • 编程推理和数学推理的不同需求导致训练数据的选择和混合需要平衡。
➡️

继续阅读