360智脑于2025年3月4日开源Light-R1-32B模型,训练成本约1000美元,使用7万条数学数据,AIME24得分76.6,超越DeepSeek-R1-Distill-Qwen-32B。该模型基于Qwen2.5-32B-Instruct,采用SFT+DPO课程学习,推动开源社区发展。
完成下面两步后,将自动完成登录并继续当前操作。