机器之心 ·

科研领域新成果：九章云极 DataCanvas 联合团队发布 R1 复现以及改进技术

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

中国人民大学与九章云极团队在大模型推理技术上取得新进展，复现类R1模型并开源实现。新模型STILL-3-Tool-32B在AIME 2024测试中准确率达到81.70%，超越DeepSeek-R1，推动AI推理能力提升。

🎯

🔎

中国人民大学与九章云极团队的合作不仅复现了类R1模型，还开源了实现细节和训练技巧。这一举措为开发者提供了可直接使用的工业化级大模型训练框架，降低了技术门槛，促进了AI推理技术的普及与应用。

新模型STILL-3-Tool-32B通过引入外部工具增强了AI的复杂推理能力，取得了81.70%的准确率。这一创新方法可能为未来的AI模型设计提供新的思路，尤其是在处理复杂推理任务时，值得关注其在实际应用中的表现。

尽管DeepSeek-R1的复现面临代码完整性和超参数调试等难题，九章云极团队通过深度融合AI基础设施实现了突破。研究表明，采用on-policy学习策略是成功的关键，这为其他研究团队提供了宝贵的经验和参考。

❓

STILL-3-Tool-32B模型在AIME 2024测试中的准确率达到81.70%。

他们复现了类R1模型并开源实现，同时推出了STILL-3-Tool-32B模型，推动了AI推理能力的提升。

该模型通过引入外部工具来增强AI模型的复杂推理能力。

研究团队开源了类R1模型的实现细节、训练技巧以及完整的训练和推理部署代码。

采用on-policy学习策略是STILL-3-Tool-32B成功的关键因素。

DeepSeek-R1模型在推理过程中无法调用外部代码工具，这是复现的关键难点。

🏷️