360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

360智脑于2025年3月4日开源Light-R1-32B模型,训练成本约1000美元,使用7万条数学数据,AIME24得分76.6,超越DeepSeek-R1-Distill-Qwen-32B。该模型基于Qwen2.5-32B-Instruct,采用SFT+DPO课程学习,推动开源社区发展。

🎯

关键要点

  • 360智脑于2025年3月4日开源Light-R1-32B模型,训练成本约1000美元,使用7万条数学数据。
  • Light-R1-32B在AIME24测试中取得76.6分,超越DeepSeek-R1-Distill-Qwen-32B的72.6分。
  • Light-R1-32B模型基于Qwen2.5-32B-Instruct,采用SFT+DPO课程学习。
  • 360智脑希望通过开源工作助力开源社区发展。
  • Light-R1-32B的训练仅需12台H800机器6小时完成。
  • 模型训练方案的泛化性和有效性在GPQA Diamond任务中表现优秀。
  • Light-R1-32B开源全量训练和评测资产,确保可信度和可复现性。
  • 训练数据来自多个开源数学数据集,经过严格去重处理。
  • Light-R1-32B是首个从零训练超越DeepSeek-R1-Distill-Qwen-32B的模型,助力开源生态发展。
➡️

继续阅读