360智脑于2025年3月4日开源Light-R1-32B模型,训练成本约1000美元,使用7万条数学数据,AIME24得分76.6,超越DeepSeek-R1-Distill-Qwen-32B。该模型基于Qwen2.5-32B-Instruct,采用SFT+DPO课程学习,推动开源社区发展。
本研究针对线性递归神经网络(LRNNs)在状态跟踪中的不足,特别是其在基本任务中的局限性,提出了通过扩展状态转换矩阵特征值范围(包括负值)来显著提升LRNNs的状态跟踪能力,从而增强其在语言建模、代码和数学数据处理上的表现。
完成下面两步后,将自动完成登录并继续当前操作。