机器之心 ·

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

360智脑于2025年3月4日开源Light-R1-32B模型，训练成本约1000美元，使用7万条数学数据，AIME24得分76.6，超越DeepSeek-R1-Distill-Qwen-32B。该模型基于Qwen2.5-32B-Instruct，采用SFT+DPO课程学习，推动开源社区发展。

🎯

🔎

360智脑开源Light-R1-32B模型，标志着开源社区在AI领域的又一次重要进展。通过提供完整的训练数据和代码，开发者可以更容易地复现和改进模型，推动技术的进一步发展。这种开放性不仅促进了知识共享，也为后续研究提供了基础。

Light-R1-32B的训练成本仅约1000美元，且在短短6小时内完成，显示出其高效性。这一低成本、高效率的训练方案为更多研究者和开发者提供了可行的选择，尤其是在资源有限的情况下，能够快速实现高性能模型的训练。

尽管Light-R1-32B主要基于数学数据进行训练，但在GPQA Diamond任务中的表现证明了其良好的泛化能力。这表明，模型不仅在特定任务上有效，也可能在其他领域展现出潜力，值得关注其在不同应用场景中的表现。

❓

Light-R1-32B模型的训练成本约为1000美元。

Light-R1-32B在AIME24测试中取得了76.6分。

Light-R1-32B模型采用SFT和DPO两阶段课程学习，使用7万条数学数据进行训练。

Light-R1-32B模型的训练时间为6小时，使用12台H800机器。

360智脑希望通过开源Light-R1-32B模型助力开源社区发展。

Light-R1-32B模型在数学评测上首次从零超越DeepSeek-R1-Distill-Qwen-32B。

🏷️