💡
原文中文,约3500字,阅读约需9分钟。
📝
内容提要
360智脑于2025年3月4日开源Light-R1-32B模型,训练成本约1000美元,使用7万条数学数据,AIME24得分76.6,超越DeepSeek-R1-Distill-Qwen-32B。该模型基于Qwen2.5-32B-Instruct,采用SFT+DPO课程学习,推动开源社区发展。
🎯
关键要点
- 360智脑于2025年3月4日开源Light-R1-32B模型,训练成本约1000美元,使用7万条数学数据。
- Light-R1-32B在AIME24测试中取得76.6分,超越DeepSeek-R1-Distill-Qwen-32B的72.6分。
- Light-R1-32B模型基于Qwen2.5-32B-Instruct,采用SFT+DPO课程学习。
- 360智脑希望通过开源工作助力开源社区发展。
- Light-R1-32B的训练仅需12台H800机器6小时完成。
- 模型训练方案的泛化性和有效性在GPQA Diamond任务中表现优秀。
- Light-R1-32B开源全量训练和评测资产,确保可信度和可复现性。
- 训练数据来自多个开源数学数据集,经过严格去重处理。
- Light-R1-32B是首个从零训练超越DeepSeek-R1-Distill-Qwen-32B的模型,助力开源生态发展。
❓
延伸问答
Light-R1-32B模型的训练成本是多少?
Light-R1-32B模型的训练成本约为1000美元。
Light-R1-32B模型在AIME24测试中取得了什么成绩?
Light-R1-32B在AIME24测试中取得了76.6分。
Light-R1-32B模型是如何训练的?
Light-R1-32B模型采用SFT和DPO两阶段课程学习,使用7万条数学数据进行训练。
Light-R1-32B模型的训练时间是多少?
Light-R1-32B模型的训练时间为6小时,使用12台H800机器。
Light-R1-32B模型的开源目的是什么?
360智脑希望通过开源Light-R1-32B模型助力开源社区发展。
Light-R1-32B模型与DeepSeek-R1-Distill-Qwen-32B的比较如何?
Light-R1-32B模型在数学评测上首次从零超越DeepSeek-R1-Distill-Qwen-32B。
➡️