450美元训练一个「o1-preview」？UC伯克利开源32B推理模型Sky-T1，AI社区沸腾了

机器之心 ·

450美元训练一个「o1-preview」？UC伯克利开源32B推理模型Sky-T1，AI社区沸腾了

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

加州大学伯克利分校的NovaSky团队发布了Sky-T1-32B-Preview推理模型，训练成本低于450美元，展现了经济高效的高级推理能力。该模型开源，包含数据、代码和模型权重，便于社区复制和改进。在多个基准测试中，Sky-T1的表现优于早期版本，显示出推理模型技术的快速进步。

🎯

关键要点

加州大学伯克利分校的NovaSky团队发布了Sky-T1-32B-Preview推理模型，训练成本低于450美元。
Sky-T1-32B-Preview是第一个真正开源的推理模型，包含数据、代码和模型权重。
该模型在多个基准测试中表现优于早期版本，显示出推理模型技术的快速进步。
训练数据使用了QwQ-32B-Preview模型，并进行了数据混合和拒绝采样以提高数据质量。
团队使用Qwen2.5-32B-Instruct模型进行微调，训练过程耗时19小时，使用了DeepSpeed Zero-3 offload。
Sky-T1在MATH500和LiveCodeBench上的表现优于o1的早期版本，但不如o1 GA版本。
模型大小和数据混合对推理性能有显著影响，较小模型的有效性受到限制。
编程推理和数学推理的不同需求导致训练数据的选择和混合需要平衡。

❓

延伸问答

Sky-T1-32B-Preview模型的训练成本是多少？

训练成本不到450美元。

Sky-T1-32B-Preview模型的开源内容包括哪些？

模型开源包括数据、代码和模型权重。

Sky-T1-32B-Preview在基准测试中的表现如何？

在多个基准测试中，Sky-T1表现优于早期版本，但不如o1 GA版本。

训练Sky-T1模型使用了哪些技术？

使用了DeepSpeed Zero-3 offload和Qwen2.5-32B-Instruct模型进行微调。

Sky-T1模型在数学和编程推理方面的表现有什么不同？

数学推理更直接，而编程推理需要额外的逻辑步骤。

Sky-T1模型的训练数据是如何处理的？

团队进行了数据混合和拒绝采样以提高数据质量。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
Crown Engine 0.63 恢复了其 OpenGL 渲染器，以支持旧版硬件
Crown Engine 0.63 是一款基于 C++ 的开源游戏引擎，新增 LOD 组组件以优化性能，并支持 OBJ 网格格式。更新改进了 FBX 导入...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
AI对话开发需要自建吗?还是选开源好
在AI对话系统开发中，选择自建还是开源框架需综合考虑成本、周期和团队能力。自建系统提供完全掌控，但成本高、周期长；开源框架启动快，但灵活性受限。理想选择是...